SIMPLEMIX: Frustrerend Eenvoudig Mixen van Off- en On-policy Gegevens in Voorkeursleren van Taalmodellen

Samenvatting

Het afstemmen van taalmodellen op menselijke voorkeuren is afhankelijk van gepaarde voorkeursdatasets. Hoewel sommige studies suggereren dat on-policy data consistent beter presteert dan off-policy data voor voorkeursleren, geven andere aan dat de voordelen van on-policy data taakafhankelijk kunnen zijn, wat de noodzaak benadrukt van een systematische verkenning van hun wisselwerking. In dit werk tonen we aan dat on-policy en off-policy data complementaire sterktes bieden in voorkeursoptimalisatie: on-policy data is bijzonder effectief voor redeneertaken zoals wiskunde en programmeren, terwijl off-policy data beter presteert bij open-eindetaken zoals creatief schrijven en het doen van persoonlijke aanbevelingen. Geleid door deze bevindingen introduceren we SIMPLEMIX, een benadering om de complementaire sterktes van on-policy en off-policy voorkeursleren te combineren door simpelweg deze twee databronnen te mengen. Onze empirische resultaten over diverse taken en benchmarks tonen aan dat SIMPLEMIX de afstemming van taalmodellen aanzienlijk verbetert. Specifiek verbetert SIMPLEMIX ten opzichte van on-policy DPO en off-policy DPO met gemiddeld 6,03% op Alpaca Eval 2.0. Bovendien overtreft het eerdere benaderingen die veel complexer zijn in het combineren van on- en off-policy data, zoals HyPO en DPO-Mix-P, met gemiddeld 3,05%.

English

Aligning language models with human preferences relies on pairwise preference datasets. While some studies suggest that on-policy data consistently outperforms off -policy data for preference learning, others indicate that the advantages of on-policy data may be task-dependent, highlighting the need for a systematic exploration of their interplay. In this work, we show that on-policy and off-policy data offer complementary strengths in preference optimization: on-policy data is particularly effective for reasoning tasks like math and coding, while off-policy data performs better on open-ended tasks such as creative writing and making personal recommendations. Guided by these findings, we introduce SIMPLEMIX, an approach to combine the complementary strengths of on-policy and off-policy preference learning by simply mixing these two data sources. Our empirical results across diverse tasks and benchmarks demonstrate that SIMPLEMIX substantially improves language model alignment. Specifically, SIMPLEMIX improves upon on-policy DPO and off-policy DPO by an average of 6.03% on Alpaca Eval 2.0. Moreover, it outperforms prior approaches that are much more complex in combining on- and off-policy data, such as HyPO and DPO-Mix-P, by an average of 3.05%.

SIMPLEMIX: Frustrerend Eenvoudig Mixen van Off- en On-policy Gegevens in Voorkeursleren van Taalmodellen

SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning

Samenvatting

Support