ChatPaper.aiChatPaper

領域シフト下における選好チューニングの汎化性と多様性に関する実証的研究

An Empirical Study on Preference Tuning Generalization and Diversity Under Domain Shift

January 9, 2026
著者: Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras
cs.AI

要旨

選好チューニングは、単なる尤度だけでなく明示的な選好信号を最適化することで、事前学習済み言語モデルを人間の品質判断、有用性、安全性に適合させます。従来の研究では、選好チューニングが訓練ドメイン外で評価された場合に性能と有用性を低下させることが示されています。しかし、適応戦略がこのドメインシフトをどの程度緩和するかは未解明のままでした。本研究では、ドメインシフト下での適合性一般化に関する体系的かつ包括的な分析により、この課題に取り組みます。要約タスクと質問応答の有用性タスクにおいて、5種類の主要な適合性目的関数と、対象ドメインでの教師ありファインチューニングや擬似ラベリングを含む様々なソースからターゲットへの適応戦略を比較します。実験結果から、ドメインシフト下での適合性目的関数による一般化性能に系統的な差異があることが明らかになりました。さらに、擬似ラベリングに基づく適応戦略がドメインシフトによる性能劣化を大幅に軽減できることを実証します。
English
Preference tuning aligns pretrained language models to human judgments of quality, helpfulness, or safety by optimizing over explicit preference signals rather than likelihood alone. Prior work has shown that preference-tuning degrades performance and reduces helpfulness when evaluated outside the training domain. However, the extent to which adaptation strategies mitigate this domain shift remains unexplored. We address this challenge by conducting a comprehensive and systematic study of alignment generalization under domain shift. We compare five popular alignment objectives and various adaptation strategies from source to target, including target-domain supervised fine-tuning and pseudo-labeling, across summarization and question-answering helpfulness tasks. Our findings reveal systematic differences in generalization across alignment objectives under domain shift. We show that adaptation strategies based on pseudo-labeling can substantially reduce domain-shift degradation
PDF181January 13, 2026