CroCo: Кросс-языковая контрастивная настройка предпочтений на самогенерациях

Аннотация

Предыдущие работы показывают, что контролируемая контрастность между самостоятельно сгенерированными ответами больших языковых моделей, задаваемая с помощью оценок вознаграждения, улучшает последующую настройку предпочтений на английском языке. Мы расширяем этот метод на несколько языков и оцениваем две модели в общей сложности на 14 высоко- и низкоресурсных языках на разнообразном наборе задач. Наш основной вывод заключается в том, что кросс-языковая контрастная настройка предпочтений на самогенерируемых ответах (CroCo) переносится без аннотации предпочтений для конкретного языка. Модель вознаграждения, обученная на английских предпочтениях (на основе мультиязычной базы), выдает полезные внутриязыковые рейтинги для большинства языков, а объединение в одно- или многоязычном режиме улучшает каждую модель в большинстве сценариев, предотвращая катастрофическое забывание контролируемой тонкой настройки. Мы наблюдаем, что для выигрыша требуются данные, соответствующие политике (on-policy). Ответы, не соответствующие политике (off-policy), снижают выгоду, а онлайн-оптимизация предпочтений не превосходит офлайн-вариант. В частности, на структурированных задачах наш метод соответствует или превосходит базовый для 6/7 языков по EuroLLM-9B и 4/7 сценариев по Aya-3B. В открытой генерации обе настроенные модели выигрывают у своих базовых моделей на 11 оцененных языках. В целом, мы демонстрируем перспективные направления для мультиязычной настройки предпочтений.

English

Prior work establishes that controlled contrastiveness between self-generated responses from large language models, set via reward scores, improves downstream preference tuning in English. We extend this method to multiple languages and evaluate two models across a total of 14 high and low-resource languages on a diverse set of tasks. Our central finding is that cross-lingual contrastive preference tuning on self-generations (CroCo) transfers without language-specific preference annotation. A reward model trained on English preferences (atop a multilingual base) produces useful within-language rankings across most languages, and pairing in either a monolingual or multilingual setting improves over each model on the majority of setups while preventing the catastrophic forgetting of supervised fine-tuning. We observe that the gains require on-policy data. Off-policy responses reduce the benefit and online preference optimization fails to improve over the offline variant. Specifically, on structured tasks, our method matches or exceeds the base in 6/7 languages for EuroLLM-9B and 4/7 settings for Aya-3B. On open-ended generation, both tuned models win against their respective base across 11 evaluated languages. Overall, we show promising directions for multilingual preference tuning.