SIMPLEMIX: Una Miscelazione Frustrantemente Semplice di Dati On-policy e Off-policy nell'Apprendimento delle Preferenze nei Modelli Linguistici
SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning
May 5, 2025
Autori: Tianjian Li, Daniel Khashabi
cs.AI
Abstract
L'allineamento dei modelli linguistici con le preferenze umane si basa su dataset di preferenze a coppie. Mentre alcuni studi suggeriscono che i dati on-policy superano costantemente i dati off-policy per l'apprendimento delle preferenze, altri indicano che i vantaggi dei dati on-policy potrebbero dipendere dal compito, evidenziando la necessità di un'esplorazione sistematica della loro interazione.
In questo lavoro, dimostriamo che i dati on-policy e off-policy offrono punti di forza complementari nell'ottimizzazione delle preferenze: i dati on-policy sono particolarmente efficaci per compiti di ragionamento come la matematica e la codifica, mentre i dati off-policy performano meglio su compiti aperti come la scrittura creativa e la formulazione di raccomandazioni personalizzate. Guidati da questi risultati, introduciamo SIMPLEMIX, un approccio che combina i punti di forza complementari dell'apprendimento delle preferenze on-policy e off-policy semplicemente mescolando queste due fonti di dati. I nostri risultati empirici su vari compiti e benchmark dimostrano che SIMPLEMIX migliora significativamente l'allineamento dei modelli linguistici. Nello specifico, SIMPLEMIX supera il DPO on-policy e il DPO off-policy di una media del 6,03% su Alpaca Eval 2.0. Inoltre, supera approcci precedenti molto più complessi nel combinare dati on-policy e off-policy, come HyPO e DPO-Mix-P, di una media del 3,05%.
English
Aligning language models with human preferences relies on pairwise preference
datasets. While some studies suggest that on-policy data consistently
outperforms off -policy data for preference learning, others indicate that the
advantages of on-policy data may be task-dependent, highlighting the need for a
systematic exploration of their interplay.
In this work, we show that on-policy and off-policy data offer complementary
strengths in preference optimization: on-policy data is particularly effective
for reasoning tasks like math and coding, while off-policy data performs better
on open-ended tasks such as creative writing and making personal
recommendations. Guided by these findings, we introduce SIMPLEMIX, an approach
to combine the complementary strengths of on-policy and off-policy preference
learning by simply mixing these two data sources. Our empirical results across
diverse tasks and benchmarks demonstrate that SIMPLEMIX substantially improves
language model alignment. Specifically, SIMPLEMIX improves upon on-policy DPO
and off-policy DPO by an average of 6.03% on Alpaca Eval 2.0. Moreover, it
outperforms prior approaches that are much more complex in combining on- and
off-policy data, such as HyPO and DPO-Mix-P, by an average of 3.05%.