Een Empirische Studie naar de Generalisatie en Diversiteit van Preference Tuning bij Domeinverschuiving
An Empirical Study on Preference Tuning Generalization and Diversity Under Domain Shift
January 9, 2026
Auteurs: Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras
cs.AI
Samenvatting
Preferentie-afstemming stemt vooraf getrainde taalmodellen af op menselijke beoordelingen van kwaliteit, behulpzaamheid of veiligheid door te optimaliseren op expliciete voorkeurssignalen in plaats van alleen op waarschijnlijkheid. Eerder onderzoek heeft aangetoond dat preferentie-afstemming de prestaties vermindert en de behulpzaamheid aantast wanneer het wordt geëvalueerd buiten het trainingsdomein. De mate waarin adaptatiestrategieën deze domeinverschuiving mitigeren, is echter nog onontgonnen terrein. Wij pakken deze uitdaging aan door een uitgebreide en systematische studie uit te voeren naar de generalisatie van afstemming onder domeinverschuiving. We vergelijken vijf populaire afstemmingsdoelstellingen en verschillende adaptatiestrategieën van bron naar doel, waaronder supervised fine-tuning en pseudo-labeling in het doeldomein, voor samenvattings- en vraag-antwoordtaken gericht op behulpzaamheid. Onze bevindingen onthullen systematische verschillen in generalisatie tussen afstemmingsdoelstellingen onder domeinverschuiving. We tonen aan dat adaptatiestrategieën gebaseerd op pseudo-labeling de degradatie door domeinverschuiving aanzienlijk kunnen verminderen.
English
Preference tuning aligns pretrained language models to human judgments of quality, helpfulness, or safety by optimizing over explicit preference signals rather than likelihood alone. Prior work has shown that preference-tuning degrades performance and reduces helpfulness when evaluated outside the training domain. However, the extent to which adaptation strategies mitigate this domain shift remains unexplored. We address this challenge by conducting a comprehensive and systematic study of alignment generalization under domain shift. We compare five popular alignment objectives and various adaptation strategies from source to target, including target-domain supervised fine-tuning and pseudo-labeling, across summarization and question-answering helpfulness tasks. Our findings reveal systematic differences in generalization across alignment objectives under domain shift. We show that adaptation strategies based on pseudo-labeling can substantially reduce domain-shift degradation