Alinhamento Eficiente de Amostras para Modelos de Linguagem de Grande Porte
Sample-Efficient Alignment for LLMs
November 3, 2024
Autores: Zichen Liu, Changyu Chen, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Resumo
Estudamos métodos para alinhar eficientemente grandes modelos de linguagem (LLMs) com as preferências humanas, considerando feedback online com orçamento limitado. Primeiramente, formulamos o problema de alinhamento de LLMs no contexto de bandos duelistas contextuais. Essa formulação, que engloba paradigmas recentes como RLHF online e DPO online, busca inherentemente por algoritmos eficientes em amostras que incorporem exploração ativa online. Aproveitando insights da teoria dos bandos, introduzimos um algoritmo unificado baseado em amostragem de Thompson e destacamos suas aplicações em dois cenários distintos de alinhamento de LLMs. O agente prático que implementa eficientemente esse algoritmo, denominado SEA (Alinhamento Eficiente de Amostras), é validado empiricamente por meio de experimentos extensivos em três escalas de modelo (1B, 2.8B, 6.9B) e três algoritmos de aprendizado de preferências (DPO, IPO, SLiC). Os resultados demonstram que o SEA alcança um alinhamento altamente eficiente em amostras com as preferências do oráculo, superando métodos recentes de exploração ativa para LLMs. Além disso, disponibilizamos a implementação do SEA juntamente com uma base de código eficiente projetada para o alinhamento online de LLMs, com o objetivo de acelerar futuras pesquisas nesse campo.
English
We study methods for efficiently aligning large language models (LLMs) with
human preferences given budgeted online feedback. We first formulate the LLM
alignment problem in the frame of contextual dueling bandits. This formulation,
subsuming recent paradigms such as online RLHF and online DPO, inherently
quests for sample-efficient algorithms that incorporate online active
exploration. Leveraging insights from bandit theory, we introduce a unified
algorithm based on Thompson sampling and highlight its applications in two
distinct LLM alignment scenarios. The practical agent that efficiently
implements this algorithm, named SEA (Sample-Efficient Alignment), is
empirically validated through extensive experiments across three model scales
(1B, 2.8B, 6.9B) and three preference learning algorithms (DPO, IPO, SLiC). The
results demonstrate that SEA achieves highly sample-efficient alignment with
oracle's preferences, outperforming recent active exploration methods for LLMs.
Additionally, we release the implementation of SEA together with an efficient
codebase designed for online alignment of LLMs, aiming to accelerate future
research in this field.Summary
AI-Generated Summary