ChatPaper.aiChatPaper

도메인 변화에서 일반화 및 다양성에 대한 선호도 튜닝 실증 연구

An Empirical Study on Preference Tuning Generalization and Diversity Under Domain Shift

January 9, 2026
저자: Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras
cs.AI

초록

선호도 튜닝은 사전 학습된 언어 모델을 가능성만이 아닌 명시적 선호 신호를 최적화하여 품질, 도움성 또는 안전성에 대한 인간의 판단에 맞춥니다. 선행 연구에서는 선호도 튜닝이 훈련 도메인 외부에서 평가될 때 성능을 저하시키고 도움성을 감소시킨다는 것을 보여주었습니다. 그러나 적응 전략이 이러한 도메인 변화를 얼마나 완화하는지에 대해서는 아직 연구되지 않았습니다. 우리는 도메인 변화 하에서의 정렬 일반화에 대한 포괄적이고 체계적인 연구를 수행하여 이 문제를 해결합니다. 우리는 요약 및 질문-답변 도움성 작업에 걸쳐, 목표 도메인 지도 미세 조정 및 의사 레이블링을 포함한 소스에서 타겟으로의 다양한 적응 전략과 다섯 가지 인기 있는 정렬 목적을 비교합니다. 우리의 연구 결과는 도메인 변화 하에서 정렬 목적 간 일반화에 체계적인 차이가 있음을 보여줍니다. 우리는 의사 레이블링에 기반한 적응 전략이 도메인 변화로 인한 성능 저하를 상당히 줄일 수 있음을 입증합니다.
English
Preference tuning aligns pretrained language models to human judgments of quality, helpfulness, or safety by optimizing over explicit preference signals rather than likelihood alone. Prior work has shown that preference-tuning degrades performance and reduces helpfulness when evaluated outside the training domain. However, the extent to which adaptation strategies mitigate this domain shift remains unexplored. We address this challenge by conducting a comprehensive and systematic study of alignment generalization under domain shift. We compare five popular alignment objectives and various adaptation strategies from source to target, including target-domain supervised fine-tuning and pseudo-labeling, across summarization and question-answering helpfulness tasks. Our findings reveal systematic differences in generalization across alignment objectives under domain shift. We show that adaptation strategies based on pseudo-labeling can substantially reduce domain-shift degradation
PDF181January 13, 2026