SIMPLEMIX: Äußerst einfache Mischung von Off- und On-Policy-Daten beim Lernen von Präferenzen in Sprachmodellen

papers.abstract

Die Ausrichtung von Sprachmodellen an menschlichen Präferenzen basiert auf paarweisen Präferenzdatensätzen. Während einige Studien darauf hindeuten, dass On-Policy-Daten durchweg bessere Ergebnisse für das Präferenzlernen liefern als Off-Policy-Daten, zeigen andere, dass die Vorteile von On-Policy-Daten aufgabenabhängig sein können, was die Notwendigkeit einer systematischen Untersuchung ihres Zusammenspiels unterstreicht. In dieser Arbeit zeigen wir, dass On-Policy- und Off-Policy-Daten komplementäre Stärken in der Präferenzoptimierung bieten: On-Policy-Daten sind besonders effektiv für Aufgaben wie Mathematik und Programmierung, während Off-Policy-Daten bei offenen Aufgaben wie kreativem Schreiben und persönlichen Empfehlungen besser abschneiden. Aufbauend auf diesen Erkenntnissen stellen wir SIMPLEMIX vor, einen Ansatz, der die komplementären Stärken von On-Policy- und Off-Policy-Präferenzlernen durch einfaches Vermischen dieser beiden Datenquellen kombiniert. Unsere empirischen Ergebnisse über verschiedene Aufgaben und Benchmarks hinweg zeigen, dass SIMPLEMIX die Ausrichtung von Sprachmodellen erheblich verbessert. Konkret übertrifft SIMPLEMIX On-Policy DPO und Off-Policy DPO im Durchschnitt um 6,03 % auf Alpaca Eval 2.0. Darüber hinaus übertrifft es frühere Ansätze, die deutlich komplexer in der Kombination von On- und Off-Policy-Daten sind, wie HyPO und DPO-Mix-P, im Durchschnitt um 3,05 %.

English

Aligning language models with human preferences relies on pairwise preference datasets. While some studies suggest that on-policy data consistently outperforms off -policy data for preference learning, others indicate that the advantages of on-policy data may be task-dependent, highlighting the need for a systematic exploration of their interplay. In this work, we show that on-policy and off-policy data offer complementary strengths in preference optimization: on-policy data is particularly effective for reasoning tasks like math and coding, while off-policy data performs better on open-ended tasks such as creative writing and making personal recommendations. Guided by these findings, we introduce SIMPLEMIX, an approach to combine the complementary strengths of on-policy and off-policy preference learning by simply mixing these two data sources. Our empirical results across diverse tasks and benchmarks demonstrate that SIMPLEMIX substantially improves language model alignment. Specifically, SIMPLEMIX improves upon on-policy DPO and off-policy DPO by an average of 6.03% on Alpaca Eval 2.0. Moreover, it outperforms prior approaches that are much more complex in combining on- and off-policy data, such as HyPO and DPO-Mix-P, by an average of 3.05%.

SIMPLEMIX: Äußerst einfache Mischung von Off- und On-Policy-Daten beim Lernen von Präferenzen in Sprachmodellen

SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning

papers.abstract

Support