CroCo: Cross-linguale contrastieve preferentie-afstemming op zelfgeneraties

Samenvatting

Eerder werk toont aan dat gecontroleerde contrastiviteit tussen zelf gegenereerde antwoorden van grote taalmodellen, ingesteld via beloningsscores, de downstream preferentieafstemming in het Engels verbetert. We breiden deze methode uit naar meerdere talen en evalueren twee modellen over in totaal 14 talen met hoge en lage resources op een diverse reeks taken. Onze belangrijkste bevinding is dat cross-linguale contrastieve preferentieafstemming op zelfgeneraties (CroCo) overdraagt zonder taalspecifieke preferentie-annotatie. Een beloningsmodel getraind op Engelse preferenties (bovenop een meertalige basis) produceert bruikbare intralinguale rangschikkingen voor de meeste talen, en combinatie in een eentalige of meertalige setting verbetert ten opzichte van elk model in de meerderheid van de opstellingen, terwijl catastrofale vergetelheid van gesuperviseerde fijnafstemming wordt voorkomen. We observeren dat de winsten on-policy data vereisen. Off-policy antwoorden verminderen het voordeel en online preferentieoptimalisatie slaagt er niet in te verbeteren ten opzichte van de offline variant. Specifiek, bij gestructureerde taken evenaart of overtreft onze methode de basis in 6/7 talen voor EuroLLM-9B en 4/7 opstellingen voor Aya-3B. Bij open einde generatie winnen beide getunede modellen tegen hun respectievelijke basis in 11 geëvalueerde talen. Over het algemeen tonen we veelbelovende richtingen voor meertalige preferentieafstemming.

English

Prior work establishes that controlled contrastiveness between self-generated responses from large language models, set via reward scores, improves downstream preference tuning in English. We extend this method to multiple languages and evaluate two models across a total of 14 high and low-resource languages on a diverse set of tasks. Our central finding is that cross-lingual contrastive preference tuning on self-generations (CroCo) transfers without language-specific preference annotation. A reward model trained on English preferences (atop a multilingual base) produces useful within-language rankings across most languages, and pairing in either a monolingual or multilingual setting improves over each model on the majority of setups while preventing the catastrophic forgetting of supervised fine-tuning. We observe that the gains require on-policy data. Off-policy responses reduce the benefit and online preference optimization fails to improve over the offline variant. Specifically, on structured tasks, our method matches or exceeds the base in 6/7 languages for EuroLLM-9B and 4/7 settings for Aya-3B. On open-ended generation, both tuned models win against their respective base across 11 evaluated languages. Overall, we show promising directions for multilingual preference tuning.