Эффективное выравнивание для LLMs
Sample-Efficient Alignment for LLMs
November 3, 2024
Авторы: Zichen Liu, Changyu Chen, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Аннотация
Мы изучаем методы эффективного выравнивания больших языковых моделей (LLM) с предпочтениями человека при наличии ограниченной обратной связи в реальном времени. Сначала мы формулируем проблему выравнивания LLM в рамках контекстуальных дуэльных бандитов. Эта формулировка, включающая недавние парадигмы, такие как онлайн RLHF и онлайн DPO, неотъемлемо стремится к алгоритмам, эффективным по образцам, которые включают онлайн активное исследование. Основываясь на идеях теории бандитов, мы представляем унифицированный алгоритм на основе выборки Томпсона и выделяем его применение в двух различных сценариях выравнивания LLM. Практический агент, который эффективно реализует этот алгоритм, названный SEA (Sample-Efficient Alignment), эмпирически проверен через обширные эксперименты на трех масштабах моделей (1B, 2.8B, 6.9B) и тремя алгоритмами обучения предпочтений (DPO, IPO, SLiC). Результаты показывают, что SEA достигает высокоэффективного выравнивания с предпочтениями оракула, превосходя недавние методы активного исследования для LLM. Кроме того, мы предоставляем реализацию SEA вместе с эффективной кодовой базой, разработанной для онлайн выравнивания LLM, с целью ускорения будущих исследований в этой области.
English
We study methods for efficiently aligning large language models (LLMs) with
human preferences given budgeted online feedback. We first formulate the LLM
alignment problem in the frame of contextual dueling bandits. This formulation,
subsuming recent paradigms such as online RLHF and online DPO, inherently
quests for sample-efficient algorithms that incorporate online active
exploration. Leveraging insights from bandit theory, we introduce a unified
algorithm based on Thompson sampling and highlight its applications in two
distinct LLM alignment scenarios. The practical agent that efficiently
implements this algorithm, named SEA (Sample-Efficient Alignment), is
empirically validated through extensive experiments across three model scales
(1B, 2.8B, 6.9B) and three preference learning algorithms (DPO, IPO, SLiC). The
results demonstrate that SEA achieves highly sample-efficient alignment with
oracle's preferences, outperforming recent active exploration methods for LLMs.
Additionally, we release the implementation of SEA together with an efficient
codebase designed for online alignment of LLMs, aiming to accelerate future
research in this field.Summary
AI-Generated Summary