Alineación Eficiente de Muestras para LLMs

Resumen

Estudiamos métodos para alinear de manera eficiente grandes modelos de lenguaje (LLMs) con las preferencias humanas dadas las retroalimentaciones en línea con presupuesto. Primero formulamos el problema de alineación de LLM en el marco de los bandos duelistas contextuales. Esta formulación, que engloba paradigmas recientes como RLHF en línea y DPO en línea, busca inherentemente algoritmos eficientes en muestras que incorporan exploración activa en línea. Aprovechando ideas de la teoría de bandas, presentamos un algoritmo unificado basado en muestreo de Thompson y destacamos sus aplicaciones en dos escenarios de alineación de LLM distintos. El agente práctico que implementa eficientemente este algoritmo, denominado SEA (Alineación Eficiente de Muestras), se valida empíricamente a través de experimentos extensos en tres escalas de modelo (1B, 2.8B, 6.9B) y tres algoritmos de aprendizaje de preferencias (DPO, IPO, SLiC). Los resultados demuestran que SEA logra una alineación altamente eficiente en muestras con las preferencias del oráculo, superando a los métodos recientes de exploración activa para LLMs. Además, liberamos la implementación de SEA junto con una base de código eficiente diseñada para la alineación en línea de LLMs, con el objetivo de acelerar la investigación futura en este campo.

English

We study methods for efficiently aligning large language models (LLMs) with human preferences given budgeted online feedback. We first formulate the LLM alignment problem in the frame of contextual dueling bandits. This formulation, subsuming recent paradigms such as online RLHF and online DPO, inherently quests for sample-efficient algorithms that incorporate online active exploration. Leveraging insights from bandit theory, we introduce a unified algorithm based on Thompson sampling and highlight its applications in two distinct LLM alignment scenarios. The practical agent that efficiently implements this algorithm, named SEA (Sample-Efficient Alignment), is empirically validated through extensive experiments across three model scales (1B, 2.8B, 6.9B) and three preference learning algorithms (DPO, IPO, SLiC). The results demonstrate that SEA achieves highly sample-efficient alignment with oracle's preferences, outperforming recent active exploration methods for LLMs. Additionally, we release the implementation of SEA together with an efficient codebase designed for online alignment of LLMs, aiming to accelerate future research in this field.

Alineación Eficiente de Muestras para LLMs

Sample-Efficient Alignment for LLMs

Resumen

Support