SIMPLEMIX : Un mélange déconcertant de simplicité entre données hors-politique et sur-politique dans l'apprentissage des préférences des modèles de langage

papers.abstract

L'alignement des modèles de langage avec les préférences humaines repose sur des ensembles de données de préférences par paires. Bien que certaines études suggèrent que les données on-policy surpassent systématiquement les données off-policy pour l'apprentissage des préférences, d'autres indiquent que les avantages des données on-policy peuvent dépendre de la tâche, soulignant la nécessité d'une exploration systématique de leur interaction. Dans ce travail, nous montrons que les données on-policy et off-policy offrent des forces complémentaires dans l'optimisation des préférences : les données on-policy sont particulièrement efficaces pour les tâches de raisonnement comme les mathématiques et le codage, tandis que les données off-policy donnent de meilleurs résultats sur des tâches ouvertes telles que l'écriture créative et les recommandations personnelles. Guidés par ces observations, nous introduisons SIMPLEMIX, une approche qui combine les forces complémentaires de l'apprentissage des préférences on-policy et off-policy en mélangeant simplement ces deux sources de données. Nos résultats empiriques sur diverses tâches et benchmarks démontrent que SIMPLEMIX améliore considérablement l'alignement des modèles de langage. Plus précisément, SIMPLEMIX surpasse les approches DPO on-policy et DPO off-policy de 6,03 % en moyenne sur Alpaca Eval 2.0. De plus, il dépasse les approches antérieures, bien plus complexes dans la combinaison des données on-policy et off-policy, telles que HyPO et DPO-Mix-P, de 3,05 % en moyenne.

English

Aligning language models with human preferences relies on pairwise preference datasets. While some studies suggest that on-policy data consistently outperforms off -policy data for preference learning, others indicate that the advantages of on-policy data may be task-dependent, highlighting the need for a systematic exploration of their interplay. In this work, we show that on-policy and off-policy data offer complementary strengths in preference optimization: on-policy data is particularly effective for reasoning tasks like math and coding, while off-policy data performs better on open-ended tasks such as creative writing and making personal recommendations. Guided by these findings, we introduce SIMPLEMIX, an approach to combine the complementary strengths of on-policy and off-policy preference learning by simply mixing these two data sources. Our empirical results across diverse tasks and benchmarks demonstrate that SIMPLEMIX substantially improves language model alignment. Specifically, SIMPLEMIX improves upon on-policy DPO and off-policy DPO by an average of 6.03% on Alpaca Eval 2.0. Moreover, it outperforms prior approaches that are much more complex in combining on- and off-policy data, such as HyPO and DPO-Mix-P, by an average of 3.05%.

SIMPLEMIX : Un mélange déconcertant de simplicité entre données hors-politique et sur-politique dans l'apprentissage des préférences des modèles de langage

SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning

papers.abstract

Support