Étude empirique sur la généralisation et la diversité du réglage des préférences sous changement de domaine
An Empirical Study on Preference Tuning Generalization and Diversity Under Domain Shift
January 9, 2026
papers.authors: Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras
cs.AI
papers.abstract
Le réglage des préférences aligne les modèles de langage préentraînés sur les jugements humains de qualité, d'utilité ou de sécurité en optimisant des signaux de préférence explicites plutôt que la seule vraisemblance. Des travaux antérieurs ont montré que le réglage des préférences dégrade les performances et réduit l'utilité lors d'évaluations en dehors du domaine d'entraînement. Cependant, la mesure dans laquelle les stratégies d'adaptation atténuent ce décalage de domaine reste inexplorée. Nous relevons ce défi en menant une étude systématique et exhaustive de la généralisation de l'alignement sous décalage de domaine. Nous comparons cinq objectifs d'alignement populaires et diverses stratégies d'adaptation de la source vers la cible, incluant le réglage fin supervisé dans le domaine cible et l'étiquetage pseudo-supervisé, à travers des tâches d'utilité en résumé de texte et en réponse aux questions. Nos résultats révèlent des différences systématiques dans la généralisation entre les objectifs d'alignement sous décalage de domaine. Nous montrons que les stratégies d'adaptation basées sur l'étiquetage pseudo-supervisé peuvent réduire substantiellement la dégradation due au décalage de domaine.
English
Preference tuning aligns pretrained language models to human judgments of quality, helpfulness, or safety by optimizing over explicit preference signals rather than likelihood alone. Prior work has shown that preference-tuning degrades performance and reduces helpfulness when evaluated outside the training domain. However, the extent to which adaptation strategies mitigate this domain shift remains unexplored. We address this challenge by conducting a comprehensive and systematic study of alignment generalization under domain shift. We compare five popular alignment objectives and various adaptation strategies from source to target, including target-domain supervised fine-tuning and pseudo-labeling, across summarization and question-answering helpfulness tasks. Our findings reveal systematic differences in generalization across alignment objectives under domain shift. We show that adaptation strategies based on pseudo-labeling can substantially reduce domain-shift degradation