SIMPLEMIX: Mezcla Frustrantemente Simple de Datos On-policy y Off-policy en el Aprendizaje de Preferencias de Modelos de Lenguaje

Resumen

La alineación de modelos de lenguaje con preferencias humanas depende de conjuntos de datos de preferencias por pares. Mientras que algunos estudios sugieren que los datos on-policy superan consistentemente a los datos off-policy en el aprendizaje de preferencias, otros indican que las ventajas de los datos on-policy pueden depender de la tarea, destacando la necesidad de una exploración sistemática de su interacción. En este trabajo, demostramos que los datos on-policy y off-policy ofrecen fortalezas complementarias en la optimización de preferencias: los datos on-policy son particularmente efectivos para tareas de razonamiento como matemáticas y programación, mientras que los datos off-policy funcionan mejor en tareas abiertas como la escritura creativa y la realización de recomendaciones personales. Guiados por estos hallazgos, presentamos SIMPLEMIX, un enfoque para combinar las fortalezas complementarias del aprendizaje de preferencias on-policy y off-policy mediante la simple mezcla de estas dos fuentes de datos. Nuestros resultados empíricos en diversas tareas y benchmarks demuestran que SIMPLEMIX mejora sustancialmente la alineación de los modelos de lenguaje. Específicamente, SIMPLEMIX supera a DPO on-policy y DPO off-policy en un promedio de 6.03% en Alpaca Eval 2.0. Además, supera enfoques previos mucho más complejos en la combinación de datos on-policy y off-policy, como HyPO y DPO-Mix-P, en un promedio de 3.05%.

English

Aligning language models with human preferences relies on pairwise preference datasets. While some studies suggest that on-policy data consistently outperforms off -policy data for preference learning, others indicate that the advantages of on-policy data may be task-dependent, highlighting the need for a systematic exploration of their interplay. In this work, we show that on-policy and off-policy data offer complementary strengths in preference optimization: on-policy data is particularly effective for reasoning tasks like math and coding, while off-policy data performs better on open-ended tasks such as creative writing and making personal recommendations. Guided by these findings, we introduce SIMPLEMIX, an approach to combine the complementary strengths of on-policy and off-policy preference learning by simply mixing these two data sources. Our empirical results across diverse tasks and benchmarks demonstrate that SIMPLEMIX substantially improves language model alignment. Specifically, SIMPLEMIX improves upon on-policy DPO and off-policy DPO by an average of 6.03% on Alpaca Eval 2.0. Moreover, it outperforms prior approaches that are much more complex in combining on- and off-policy data, such as HyPO and DPO-Mix-P, by an average of 3.05%.

SIMPLEMIX: Mezcla Frustrantemente Simple de Datos On-policy y Off-policy en el Aprendizaje de Preferencias de Modelos de Lenguaje

SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning

Resumen

Support