Um Estudo Empírico sobre Generalização e Diversidade no Ajuste de Preferências sob Mudança de Domínio
An Empirical Study on Preference Tuning Generalization and Diversity Under Domain Shift
January 9, 2026
Autores: Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras
cs.AI
Resumo
O ajuste de preferências alinha modelos de linguagem pré-treinados aos julgamentos humanos de qualidade, utilidade ou segurança, otimizando com base em sinais explícitos de preferência em vez de apenas na verossimilhança. Trabalhos anteriores demonstraram que o ajuste de preferências degrada o desempenho e reduz a utilidade quando avaliado fora do domínio de treinamento. No entanto, a extensão em que as estratégias de adaptação mitigam essa mudança de domínio permanece inexplorada. Abordamos este desafio realizando um estudo abrangente e sistemático da generalização do alinhamento sob mudança de domínio. Comparamos cinco objetivos de alinhamento populares e várias estratégias de adaptação da fonte para o alvo, incluindo ajuste fino supervisionado no domínio-alvo e rotulagem por pseudo-alvos, em tarefas de sumarização e utilidade em resposta a perguntas. Nossos resultados revelam diferenças sistemáticas na generalização entre os objetivos de alinhamento sob mudança de domínio. Demonstramos que estratégias de adaptação baseadas em pseudo-rotulagem podem reduzir substancialmente a degradação por mudança de domínio.
English
Preference tuning aligns pretrained language models to human judgments of quality, helpfulness, or safety by optimizing over explicit preference signals rather than likelihood alone. Prior work has shown that preference-tuning degrades performance and reduces helpfulness when evaluated outside the training domain. However, the extent to which adaptation strategies mitigate this domain shift remains unexplored. We address this challenge by conducting a comprehensive and systematic study of alignment generalization under domain shift. We compare five popular alignment objectives and various adaptation strategies from source to target, including target-domain supervised fine-tuning and pseudo-labeling, across summarization and question-answering helpfulness tasks. Our findings reveal systematic differences in generalization across alignment objectives under domain shift. We show that adaptation strategies based on pseudo-labeling can substantially reduce domain-shift degradation