CroCo: Ajuste de Preferencia Contrastiva Interlingüístico sobre Autogeneraciones

Resumen

Trabajos previos establecen que la contrastividad controlada entre respuestas autogeneradas por modelos de lenguaje de gran escala, configurada mediante puntuaciones de recompensa, mejora el ajuste posterior de preferencias en inglés. Extendemos este método a múltiples lenguas y evaluamos dos modelos en un total de 14 lenguas de alto y bajo recursos, en un conjunto diverso de tareas. Nuestro hallazgo central es que el ajuste contrastivo de preferencias entre lenguas sobre autogeneraciones (CroCo) se transfiere sin necesidad de anotaciones de preferencias específicas por lengua. Un modelo de recompensa entrenado con preferencias en inglés (sobre una base multilingüe) produce clasificaciones intra-lengua útiles en la mayoría de las lenguas, y su emparejamiento, ya sea en un entorno monolingüe o multilingüe, mejora el rendimiento de cada modelo en la mayoría de las configuraciones, al tiempo que previene el olvido catastrófico del ajuste fino supervisado. Observamos que las ganancias requieren datos on-policy. Las respuestas off-policy reducen el beneficio y la optimización de preferencias en línea no logra superar a la variante fuera de línea. En concreto, en tareas estructuradas, nuestro método iguala o supera al modelo base en 6/7 lenguas para EuroLLM-9B y en 4/7 configuraciones para Aya-3B. En generación abierta, ambos modelos ajustados vencen a sus respectivos modelos base en las 11 lenguas evaluadas. En general, mostramos direcciones prometedoras para el ajuste de preferencias multilingüe.

English

Prior work establishes that controlled contrastiveness between self-generated responses from large language models, set via reward scores, improves downstream preference tuning in English. We extend this method to multiple languages and evaluate two models across a total of 14 high and low-resource languages on a diverse set of tasks. Our central finding is that cross-lingual contrastive preference tuning on self-generations (CroCo) transfers without language-specific preference annotation. A reward model trained on English preferences (atop a multilingual base) produces useful within-language rankings across most languages, and pairing in either a monolingual or multilingual setting improves over each model on the majority of setups while preventing the catastrophic forgetting of supervised fine-tuning. We observe that the gains require on-policy data. Off-policy responses reduce the benefit and online preference optimization fails to improve over the offline variant. Specifically, on structured tasks, our method matches or exceeds the base in 6/7 languages for EuroLLM-9B and 4/7 settings for Aya-3B. On open-ended generation, both tuned models win against their respective base across 11 evaluated languages. Overall, we show promising directions for multilingual preference tuning.