Eduquer les modèles de langage
- Auteur : Arnaud Devillard
-
- Langues : Français
Pages : p.38-39 -
- Nature du document : documentaire lycée Genre : article de périodique
-
Résumé :
Le point sur les méthodes permettant d'éviter les contenus choquants ou illégaux issus des agents conversationnels : la technique RLHF (reinforcement learning from human feedback ou apprentissage par renforcement fondé sur les préférences humaines) et ses limites ; des approches en cours de développement comme la DPO (direct preference optimization) et le "red teaming" (équipe rouge).
-
- Mots-clés : assistant personnel virtuel / apprentissage automatique
- Niveau : Lycée
Dans le périodique :
Sciences et avenir (1949), n°933 (11/2024)
Exemplaires (1)
Exemplaires (1)
Localisation | Section | Cote | Support | Code-barres | Disponibilité |
---|---|---|---|---|---|
Archives | Périodiques | PER | Périodique | 061439 | Disponible |