CroCo : Ajustement de préférence contrastif cross-lingue sur des auto-générations

Résumé

Des travaux antérieurs établissent que le contraste contrôlé entre les réponses auto-générées par de grands modèles de langage, défini par des scores de récompense, améliore le réglage aval des préférences en anglais. Nous étendons cette méthode à plusieurs langues et évaluons deux modèles sur un total de 14 langues, à ressources élevées et faibles, dans un ensemble diversifié de tâches. Notre résultat central est que le réglage contrastif translinguistique des préférences sur les auto-générations (CroCo) se transfère sans annotation de préférence spécifique à la langue. Un modèle de récompense entraîné sur des préférences en anglais (sur une base multilingue) produit des classements intra-langue utiles dans la plupart des langues, et l'appariement, que ce soit dans un cadre monolingue ou multilingue, améliore chaque modèle dans la majorité des configurations tout en empêchant l'oubli catastrophique du réglage fin supervisé. Nous observons que les gains nécessitent des données on-policy. Les réponses off-policy réduisent le bénéfice et l'optimisation en ligne des préférences ne parvient pas à améliorer la variante hors ligne. Plus précisément, sur les tâches structurées, notre méthode égale ou dépasse la référence dans 6/7 langues pour EuroLLM-9B et dans 4/7 configurations pour Aya-3B. Sur la génération ouverte, les deux modèles réglés l'emportent sur leur référence respective dans les 11 langues évaluées. Dans l'ensemble, nous montrons des directions prometteuses pour le réglage multilingue des préférences.

English

Prior work establishes that controlled contrastiveness between self-generated responses from large language models, set via reward scores, improves downstream preference tuning in English. We extend this method to multiple languages and evaluate two models across a total of 14 high and low-resource languages on a diverse set of tasks. Our central finding is that cross-lingual contrastive preference tuning on self-generations (CroCo) transfers without language-specific preference annotation. A reward model trained on English preferences (atop a multilingual base) produces useful within-language rankings across most languages, and pairing in either a monolingual or multilingual setting improves over each model on the majority of setups while preventing the catastrophic forgetting of supervised fine-tuning. We observe that the gains require on-policy data. Off-policy responses reduce the benefit and online preference optimization fails to improve over the offline variant. Specifically, on structured tasks, our method matches or exceeds the base in 6/7 languages for EuroLLM-9B and 4/7 settings for Aya-3B. On open-ended generation, both tuned models win against their respective base across 11 evaluated languages. Overall, we show promising directions for multilingual preference tuning.