Vers une vision unifiée de l'apprentissage des préférences pour les grands modèles de langage : une enquêteTowards a Unified View of Preference Learning for Large Language Models:
A Survey
Les grands modèles de langage (LLMs) présentent des capacités remarquablement puissantes. L'un des facteurs cruciaux pour atteindre le succès est d'aligner la production du LLM sur les préférences humaines. Ce processus d'alignement nécessite souvent seulement une petite quantité de données pour améliorer efficacement les performances du LLM. Bien que efficace, la recherche dans ce domaine couvre plusieurs domaines et les méthodes impliquées sont relativement complexes à comprendre. Les relations entre les différentes méthodes ont été peu explorées, limitant le développement de l'alignement des préférences. Dans cette optique, nous décomposons les stratégies d'alignement populaires existantes en différents composants et proposons un cadre unifié pour étudier les stratégies d'alignement actuelles, établissant ainsi des liens entre elles. Dans cette étude, nous décomposons toutes les stratégies d'apprentissage des préférences en quatre composants : modèle, données, rétroaction et algorithme. Cette vue unifiée offre une compréhension approfondie des algorithmes d'alignement existants et ouvre également des possibilités de synergies entre les forces des différentes stratégies. De plus, nous présentons des exemples de travail détaillés des algorithmes existants prédominants pour faciliter la compréhension complète des lecteurs. Enfin, sur la base de notre perspective unifiée, nous explorons les défis et les orientations de recherche futures pour aligner les grands modèles de langage sur les préférences humaines.