ChatPaper.aiChatPaper

SIMPLEMIX: Uma Abordagem Frustrantemente Simples para a Mistura de Dados On-policy e Off-policy no Aprendizado de Preferências em Modelos de Linguagem

SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning

May 5, 2025
Autores: Tianjian Li, Daniel Khashabi
cs.AI

Resumo

O alinhamento de modelos de linguagem com as preferências humanas depende de conjuntos de dados de preferências pareadas. Embora alguns estudos sugiram que dados on-policy consistentemente superam dados off-policy para o aprendizado de preferências, outros indicam que as vantagens dos dados on-policy podem ser dependentes da tarefa, destacando a necessidade de uma exploração sistemática de sua interação. Neste trabalho, mostramos que dados on-policy e off-policy oferecem pontos fortes complementares na otimização de preferências: dados on-policy são particularmente eficazes para tarefas de raciocínio, como matemática e codificação, enquanto dados off-policy têm melhor desempenho em tarefas abertas, como escrita criativa e recomendações pessoais. Guiados por essas descobertas, introduzimos o SIMPLEMIX, uma abordagem para combinar os pontos fortes complementares do aprendizado de preferências on-policy e off-policy simplesmente misturando essas duas fontes de dados. Nossos resultados empíricos em diversas tarefas e benchmarks demonstram que o SIMPLEMIX melhora substancialmente o alinhamento de modelos de linguagem. Especificamente, o SIMPLEMIX supera o DPO on-policy e o DPO off-policy em média 6,03% no Alpaca Eval 2.0. Além disso, ele supera abordagens anteriores muito mais complexas na combinação de dados on-policy e off-policy, como HyPO e DPO-Mix-P, em média 3,05%.
English
Aligning language models with human preferences relies on pairwise preference datasets. While some studies suggest that on-policy data consistently outperforms off -policy data for preference learning, others indicate that the advantages of on-policy data may be task-dependent, highlighting the need for a systematic exploration of their interplay. In this work, we show that on-policy and off-policy data offer complementary strengths in preference optimization: on-policy data is particularly effective for reasoning tasks like math and coding, while off-policy data performs better on open-ended tasks such as creative writing and making personal recommendations. Guided by these findings, we introduce SIMPLEMIX, an approach to combine the complementary strengths of on-policy and off-policy preference learning by simply mixing these two data sources. Our empirical results across diverse tasks and benchmarks demonstrate that SIMPLEMIX substantially improves language model alignment. Specifically, SIMPLEMIX improves upon on-policy DPO and off-policy DPO by an average of 6.03% on Alpaca Eval 2.0. Moreover, it outperforms prior approaches that are much more complex in combining on- and off-policy data, such as HyPO and DPO-Mix-P, by an average of 3.05%.
PDF72February 7, 2026