Alineación Eficiente de Muestras para LLMs
Sample-Efficient Alignment for LLMs
November 3, 2024
Autores: Zichen Liu, Changyu Chen, Chao Du, Wee Sun Lee, Min Lin
cs.AI
Resumen
Estudiamos métodos para alinear de manera eficiente grandes modelos de lenguaje (LLMs) con las preferencias humanas dadas las retroalimentaciones en línea con presupuesto. Primero formulamos el problema de alineación de LLM en el marco de los bandos duelistas contextuales. Esta formulación, que engloba paradigmas recientes como RLHF en línea y DPO en línea, busca inherentemente algoritmos eficientes en muestras que incorporan exploración activa en línea. Aprovechando ideas de la teoría de bandas, presentamos un algoritmo unificado basado en muestreo de Thompson y destacamos sus aplicaciones en dos escenarios de alineación de LLM distintos. El agente práctico que implementa eficientemente este algoritmo, denominado SEA (Alineación Eficiente de Muestras), se valida empíricamente a través de experimentos extensos en tres escalas de modelo (1B, 2.8B, 6.9B) y tres algoritmos de aprendizaje de preferencias (DPO, IPO, SLiC). Los resultados demuestran que SEA logra una alineación altamente eficiente en muestras con las preferencias del oráculo, superando a los métodos recientes de exploración activa para LLMs. Además, liberamos la implementación de SEA junto con una base de código eficiente diseñada para la alineación en línea de LLMs, con el objetivo de acelerar la investigación futura en este campo.
English
We study methods for efficiently aligning large language models (LLMs) with
human preferences given budgeted online feedback. We first formulate the LLM
alignment problem in the frame of contextual dueling bandits. This formulation,
subsuming recent paradigms such as online RLHF and online DPO, inherently
quests for sample-efficient algorithms that incorporate online active
exploration. Leveraging insights from bandit theory, we introduce a unified
algorithm based on Thompson sampling and highlight its applications in two
distinct LLM alignment scenarios. The practical agent that efficiently
implements this algorithm, named SEA (Sample-Efficient Alignment), is
empirically validated through extensive experiments across three model scales
(1B, 2.8B, 6.9B) and three preference learning algorithms (DPO, IPO, SLiC). The
results demonstrate that SEA achieves highly sample-efficient alignment with
oracle's preferences, outperforming recent active exploration methods for LLMs.
Additionally, we release the implementation of SEA together with an efficient
codebase designed for online alignment of LLMs, aiming to accelerate future
research in this field.Summary
AI-Generated Summary