ChatPaper.aiChatPaper

Vers une vision unifiée de l'apprentissage des préférences pour les grands modèles de langage : une enquête

Towards a Unified View of Preference Learning for Large Language Models: A Survey

September 4, 2024
Auteurs: Bofei Gao, Feifan Song, Yibo Miao, Zefan Cai, Zhe Yang, Liang Chen, Helan Hu, Runxin Xu, Qingxiu Dong, Ce Zheng, Wen Xiao, Ge Zhang, Daoguang Zan, Keming Lu, Bowen Yu, Dayiheng Liu, Zeyu Cui, Jian Yang, Lei Sha, Houfeng Wang, Zhifang Sui, Peiyi Wang, Tianyu Liu, Baobao Chang
cs.AI

Résumé

Les grands modèles de langage (LLMs) présentent des capacités remarquablement puissantes. L'un des facteurs cruciaux pour atteindre le succès est d'aligner la production du LLM sur les préférences humaines. Ce processus d'alignement nécessite souvent seulement une petite quantité de données pour améliorer efficacement les performances du LLM. Bien que efficace, la recherche dans ce domaine couvre plusieurs domaines et les méthodes impliquées sont relativement complexes à comprendre. Les relations entre les différentes méthodes ont été peu explorées, limitant le développement de l'alignement des préférences. Dans cette optique, nous décomposons les stratégies d'alignement populaires existantes en différents composants et proposons un cadre unifié pour étudier les stratégies d'alignement actuelles, établissant ainsi des liens entre elles. Dans cette étude, nous décomposons toutes les stratégies d'apprentissage des préférences en quatre composants : modèle, données, rétroaction et algorithme. Cette vue unifiée offre une compréhension approfondie des algorithmes d'alignement existants et ouvre également des possibilités de synergies entre les forces des différentes stratégies. De plus, nous présentons des exemples de travail détaillés des algorithmes existants prédominants pour faciliter la compréhension complète des lecteurs. Enfin, sur la base de notre perspective unifiée, nous explorons les défis et les orientations de recherche futures pour aligner les grands modèles de langage sur les préférences humaines.
English
Large Language Models (LLMs) exhibit remarkably powerful capabilities. One of the crucial factors to achieve success is aligning the LLM's output with human preferences. This alignment process often requires only a small amount of data to efficiently enhance the LLM's performance. While effective, research in this area spans multiple domains, and the methods involved are relatively complex to understand. The relationships between different methods have been under-explored, limiting the development of the preference alignment. In light of this, we break down the existing popular alignment strategies into different components and provide a unified framework to study the current alignment strategies, thereby establishing connections among them. In this survey, we decompose all the strategies in preference learning into four components: model, data, feedback, and algorithm. This unified view offers an in-depth understanding of existing alignment algorithms and also opens up possibilities to synergize the strengths of different strategies. Furthermore, we present detailed working examples of prevalent existing algorithms to facilitate a comprehensive understanding for the readers. Finally, based on our unified perspective, we explore the challenges and future research directions for aligning large language models with human preferences.

Summary

AI-Generated Summary

PDF732November 16, 2024