Estudio Empírico sobre la Generalización y Diversidad del Ajuste de Preferencias bajo Cambio de Dominio
An Empirical Study on Preference Tuning Generalization and Diversity Under Domain Shift
January 9, 2026
Autores: Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras
cs.AI
Resumen
La sintonización de preferencias alinea los modelos de lenguaje preentrenados con los juicios humanos sobre calidad, utilidad o seguridad, optimizando a partir de señales explícitas de preferencia en lugar de basarse únicamente en la verosimilitud. Trabajos previos han demostrado que la sintonización de preferencias degrada el rendimiento y reduce la utilidad cuando se evalúa fuera del dominio de entrenamiento. Sin embargo, el grado en que las estrategias de adaptación mitigan este cambio de dominio sigue sin explorarse. Abordamos este desafío realizando un estudio exhaustivo y sistemático de la generalización de la alineación bajo cambio de dominio. Comparamos cinco objetivos de alineación populares y varias estrategias de adaptación de la fuente al objetivo, incluyendo el ajuste fino supervisado en el dominio objetivo y la pseudo-etiquetación, en tareas de utilidad de resumen y respuesta a preguntas. Nuestros hallazgos revelan diferencias sistemáticas en la generalización entre los objetivos de alineación bajo cambio de dominio. Demostramos que las estrategias de adaptación basadas en pseudo-etiquetado pueden reducir sustancialmente la degradación por cambio de dominio.
English
Preference tuning aligns pretrained language models to human judgments of quality, helpfulness, or safety by optimizing over explicit preference signals rather than likelihood alone. Prior work has shown that preference-tuning degrades performance and reduces helpfulness when evaluated outside the training domain. However, the extent to which adaptation strategies mitigate this domain shift remains unexplored. We address this challenge by conducting a comprehensive and systematic study of alignment generalization under domain shift. We compare five popular alignment objectives and various adaptation strategies from source to target, including target-domain supervised fine-tuning and pseudo-labeling, across summarization and question-answering helpfulness tasks. Our findings reveal systematic differences in generalization across alignment objectives under domain shift. We show that adaptation strategies based on pseudo-labeling can substantially reduce domain-shift degradation