CroCo: Ajuste de Preferência Contrastivo Interlingual em Autogerações

Resumo

Trabalhos anteriores estabelecem que a contrastividade controlada entre respostas autogeradas por modelos de linguagem de grande escala, definida por pontuações de recompensa, melhora o ajuste de preferências downstream em inglês. Estendemos este método para múltiplos idiomas e avaliamos dois modelos em um total de 14 línguas de alto e baixo recurso em um conjunto diversificado de tarefas. Nossa principal descoberta é que o ajuste contrastivo de preferências entre línguas em autogerações (CroCo) se transfere sem anotação de preferências específica do idioma. Um modelo de recompensa treinado em preferências em inglês (sobre uma base multilíngue) produz classificações intra-idioma úteis na maioria das línguas, e o pareamento, seja em ambiente monolíngue ou multilíngue, melhora ambos os modelos na maioria das configurações, prevenindo o esquecimento catastrófico do ajuste fino supervisionado. Observamos que os ganhos requerem dados on-policy. Respostas off-policy reduzem o benefício, e a otimização de preferências online não consegue superar a variante offline. Especificamente, em tarefas estruturadas, nosso método corresponde ou supera a base em 6/7 idiomas para o EuroLLM-9B e em 4/7 configurações para o Aya-3B. Na geração aberta, ambos os modelos ajustados vencem suas respectivas bases em 11 idiomas avaliados. No geral, mostramos direções promissoras para o ajuste de preferências multilíngue.

English

Prior work establishes that controlled contrastiveness between self-generated responses from large language models, set via reward scores, improves downstream preference tuning in English. We extend this method to multiple languages and evaluate two models across a total of 14 high and low-resource languages on a diverse set of tasks. Our central finding is that cross-lingual contrastive preference tuning on self-generations (CroCo) transfers without language-specific preference annotation. A reward model trained on English preferences (atop a multilingual base) produces useful within-language rankings across most languages, and pairing in either a monolingual or multilingual setting improves over each model on the majority of setups while preventing the catastrophic forgetting of supervised fine-tuning. We observe that the gains require on-policy data. Off-policy responses reduce the benefit and online preference optimization fails to improve over the offline variant. Specifically, on structured tasks, our method matches or exceeds the base in 6/7 languages for EuroLLM-9B and 4/7 settings for Aya-3B. On open-ended generation, both tuned models win against their respective base across 11 evaluated languages. Overall, we show promising directions for multilingual preference tuning.