Eine empirische Untersuchung zur Generalisierung und Diversität von Preference Tuning unter Domänenverschiebung
An Empirical Study on Preference Tuning Generalization and Diversity Under Domain Shift
January 9, 2026
papers.authors: Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras
cs.AI
papers.abstract
Preference-Tuning passt vortrainierte Sprachmodelle an menschliche Bewertungen von Qualität, Hilfsbereitschaft oder Sicherheit an, indem es auf explizite Präferenzsignale optimiert und nicht nur auf Wahrscheinlichkeit. Frühere Arbeiten haben gezeigt, dass Preference-Tuning die Leistung und Hilfsbereitschaft verringert, wenn es außerhalb der Trainingsdomäne evaluiert wird. Inwieweit Anpassungsstrategien diese Domänenverschiebung abmildern, ist jedoch noch unerforscht. Wir stellen uns dieser Herausforderung, indem wir eine umfassende und systematische Studie zur Generalisierung der Ausrichtung unter Domänenverschiebung durchführen. Wir vergleichen fünf gängige Ausrichtungsziele und verschiedene Anpassungsstrategien von der Quell- zur Zieldomäne, einschließlich überwachter Feinabstimmung und Pseudolabeling in der Zieldomäne, über Zusammenfassungs- und Frage-Antwort-Hilfsbereitschaftsaufgaben hinweg. Unsere Ergebnisse zeigen systematische Unterschiede in der Generalisierung zwischen den Ausrichtungszielen unter Domänenverschiebung. Wir zeigen, dass auf Pseudolabeling basierende Anpassungsstrategien die Verschlechterung durch Domänenverschiebung erheblich reduzieren können.
English
Preference tuning aligns pretrained language models to human judgments of quality, helpfulness, or safety by optimizing over explicit preference signals rather than likelihood alone. Prior work has shown that preference-tuning degrades performance and reduces helpfulness when evaluated outside the training domain. However, the extent to which adaptation strategies mitigate this domain shift remains unexplored. We address this challenge by conducting a comprehensive and systematic study of alignment generalization under domain shift. We compare five popular alignment objectives and various adaptation strategies from source to target, including target-domain supervised fine-tuning and pseudo-labeling, across summarization and question-answering helpfulness tasks. Our findings reveal systematic differences in generalization across alignment objectives under domain shift. We show that adaptation strategies based on pseudo-labeling can substantially reduce domain-shift degradation