Eduquer les modèles de langage

Dans le périodique : Sciences et avenir (1949), n°933 (11/2024)

Auteur : Arnaud Devillard
- Langues : Français
- Nature du document : documentaire lycée Genre : article de périodique
- Résumé :
  Le point sur les méthodes permettant d'éviter les contenus choquants ou illégaux issus des agents conversationnels : la technique RLHF (reinforcement learning from human feedback ou apprentissage par renforcement fondé sur les préférences humaines) et ses limites ; des approches en cours de développement comme la DPO (direct preference optimization) et le "red teaming" (équipe rouge).
- Mots-clés : assistant personnel virtuel / apprentissage automatique
- Niveau : Lycée

Exemplaires (1)

Liste des exemplaires
Localisation	Section	Cote	Support	Code-barres	Disponibilité
Archives	Périodiques	PER	Périodique	061439	Disponible