ChatPaper.aiChatPaper

Эмпирическое исследование обобщаемости и разнообразия тонкой настройки предпочтений при сдвиге домена

An Empirical Study on Preference Tuning Generalization and Diversity Under Domain Shift

January 9, 2026
Авторы: Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras
cs.AI

Аннотация

Настройка по предпочтениям выравнивает предобученные языковые модели в соответствии с человеческими оценками качества, полезности или безопасности за счет оптимизации на основе явных сигналов предпочтений, а не только правдоподобия. Предыдущие исследования показали, что настройка по предпочтениям ухудшает производительность и снижает полезность моделей при оценке за пределами обучающей области. Однако степень, в которой стратегии адаптации смягчают этот междоменный сдвиг, оставалась неисследованной. Мы решаем эту проблему, проводя всестороннее и систематическое исследование обобщающей способности выравнивания при междоменном сдвиге. Мы сравниваем пять популярных целей выравнивания и различные стратегии адаптации от исходной к целевой области, включая контролируемую дообучение и псевдоразметку в целевом домене, на задачах суммаризации и полезности ответов на вопросы. Наши результаты выявляют систематические различия в обобщающей способности различных целей выравнивания при междоменном сдвиге. Мы показываем, что стратегии адаптации на основе псевдоразметки могут существенно снизить деградацию, вызванную междоменным сдвигом.
English
Preference tuning aligns pretrained language models to human judgments of quality, helpfulness, or safety by optimizing over explicit preference signals rather than likelihood alone. Prior work has shown that preference-tuning degrades performance and reduces helpfulness when evaluated outside the training domain. However, the extent to which adaptation strategies mitigate this domain shift remains unexplored. We address this challenge by conducting a comprehensive and systematic study of alignment generalization under domain shift. We compare five popular alignment objectives and various adaptation strategies from source to target, including target-domain supervised fine-tuning and pseudo-labeling, across summarization and question-answering helpfulness tasks. Our findings reveal systematic differences in generalization across alignment objectives under domain shift. We show that adaptation strategies based on pseudo-labeling can substantially reduce domain-shift degradation
PDF181January 13, 2026