CroCo: Sprachübergreifendes kontrastives Präferenz-Tuning auf Selbstgenerationen

Zusammenfassung

Frühere Arbeiten zeigen, dass eine kontrollierte Kontrastivität zwischen selbstgenerierten Antworten großer Sprachmodelle, gesteuert durch Belohnungswerte, das nachgelagerte Preference Tuning auf Englisch verbessert. Wir erweitern diese Methode auf mehrere Sprachen und evaluieren zwei Modelle über insgesamt 14 Hoch- und Niedrigressourcensprachen hinweg bei einer Vielzahl von Aufgaben. Unser zentrales Ergebnis ist, dass cross-linguales kontrastives Preference Tuning auf selbstgenerierten Antworten (CroCo) ohne sprachspezifische Präferenzannotationen übertragbar ist. Ein auf englischen Präferenzen (auf einer mehrsprachigen Basis) trainiertes Belohnungsmodell erzeugt in den meisten Sprachen nützliche sprachinterne Rangfolgen, und die Kombination sowohl im einsprachigen als auch im mehrsprachigen Umfeld verbessert bei der Mehrheit der Konfigurationen die Leistung gegenüber jedem Modell, während das katastrophale Vergessen des überwachten Feintunings verhindert wird. Wir beobachten, dass die Verbesserungen auf On-Policy-Daten angewiesen sind. Off-Policy-Antworten verringern den Nutzen, und eine Online-Präferenzoptimierung führt zu keiner Verbesserung gegenüber der Offline-Variante. Konkret erreicht oder übertrifft unsere Methode bei strukturierten Aufgaben in 6 von 7 Sprachen bei EuroLLM-9B und in 4 von 7 Konfigurationen bei Aya-3B den Basiswert. Bei offener Textgenerierung gewinnen beide getunten Modelle gegenüber ihrer jeweiligen Basis in 11 evaluierten Sprachen. Insgesamt zeigen wir vielversprechende Richtungen für mehrsprachiges Preference Tuning auf.

English

Prior work establishes that controlled contrastiveness between self-generated responses from large language models, set via reward scores, improves downstream preference tuning in English. We extend this method to multiple languages and evaluate two models across a total of 14 high and low-resource languages on a diverse set of tasks. Our central finding is that cross-lingual contrastive preference tuning on self-generations (CroCo) transfers without language-specific preference annotation. A reward model trained on English preferences (atop a multilingual base) produces useful within-language rankings across most languages, and pairing in either a monolingual or multilingual setting improves over each model on the majority of setups while preventing the catastrophic forgetting of supervised fine-tuning. We observe that the gains require on-policy data. Off-policy responses reduce the benefit and online preference optimization fails to improve over the offline variant. Specifically, on structured tasks, our method matches or exceeds the base in 6/7 languages for EuroLLM-9B and 4/7 settings for Aya-3B. On open-ended generation, both tuned models win against their respective base across 11 evaluated languages. Overall, we show promising directions for multilingual preference tuning.