К единому подходу к обучению предпочтений для больших языковых моделей: обзор
Towards a Unified View of Preference Learning for Large Language Models: A Survey
September 4, 2024
Авторы: Bofei Gao, Feifan Song, Yibo Miao, Zefan Cai, Zhe Yang, Liang Chen, Helan Hu, Runxin Xu, Qingxiu Dong, Ce Zheng, Wen Xiao, Ge Zhang, Daoguang Zan, Keming Lu, Bowen Yu, Dayiheng Liu, Zeyu Cui, Jian Yang, Lei Sha, Houfeng Wang, Zhifang Sui, Peiyi Wang, Tianyu Liu, Baobao Chang
cs.AI
Аннотация
Большие языковые модели (LLM) обладают замечательными мощными возможностями. Одним из ключевых факторов достижения успеха является согласование вывода LLM с человеческими предпочтениями. Для эффективного улучшения производительности LLM часто требуется лишь небольшое количество данных. Несмотря на эффективность, исследования в этой области охватывают несколько доменов, и методы, используемые в них, относительно сложны для понимания. Взаимосвязи между различными методами остаются малоизученными, что ограничивает развитие согласования предпочтений. В свете этого мы разбиваем существующие популярные стратегии согласования на различные компоненты и предоставляем унифицированную структуру для изучения текущих стратегий согласования, тем самым устанавливая связи между ними. В данном обзоре мы декомпозируем все стратегии обучения предпочтениям на четыре компонента: модель, данные, обратная связь и алгоритм. Этот унифицированный взгляд предлагает глубокое понимание существующих алгоритмов согласования, а также открывает возможности для синергии сильных сторон различных стратегий. Кроме того, мы представляем подробные рабочие примеры распространенных существующих алгоритмов для облегчения полного понимания читателями. Наконец, на основе нашего унифицированного подхода мы исследуем вызовы и направления будущих исследований для согласования больших языковых моделей с человеческими предпочтениями.
English
Large Language Models (LLMs) exhibit remarkably powerful capabilities. One of
the crucial factors to achieve success is aligning the LLM's output with human
preferences. This alignment process often requires only a small amount of data
to efficiently enhance the LLM's performance. While effective, research in this
area spans multiple domains, and the methods involved are relatively complex to
understand. The relationships between different methods have been
under-explored, limiting the development of the preference alignment. In light
of this, we break down the existing popular alignment strategies into different
components and provide a unified framework to study the current alignment
strategies, thereby establishing connections among them. In this survey, we
decompose all the strategies in preference learning into four components:
model, data, feedback, and algorithm. This unified view offers an in-depth
understanding of existing alignment algorithms and also opens up possibilities
to synergize the strengths of different strategies. Furthermore, we present
detailed working examples of prevalent existing algorithms to facilitate a
comprehensive understanding for the readers. Finally, based on our unified
perspective, we explore the challenges and future research directions for
aligning large language models with human preferences.Summary
AI-Generated Summary