ChatPaper.aiChatPaper

価値観のドリフト:LLMポストトレーニングにおける価値アライメントの追跡

Value Drifts: Tracing Value Alignment During LLM Post-Training

October 30, 2025
著者: Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Vered Shwartz, Siva Reddy
cs.AI

要旨

大規模言語モデル(LLM)が社会においてますます重要な役割を占めるにつれ、モデルは一般的な知識に基づくだけでなく、特定の人間の価値観体系に沿うことを求められる質問に直面する機会が増えている。したがって、LLMの人間的価値観との整合性を研究することは、極めて重要な研究分野となっている。しかし、従来の研究は主に学習完了後のモデルの整合性評価に焦点を当てており、モデルが人間的価値観を表現することを学習する過程におけるトレーニングの動態を見過ごしてきた。本研究では、モデルの事後学習過程において、価値観の整合性がどのように、そしてどの段階で生じるかを調査する。我々の分析は、事後学習アルゴリズムとデータセットの効果を分解し、学習中の価値観の変動の大きさとタイミングを測定する。様々なサイズのLlama-3およびQwen-3モデル、一般的な教師ありファインチューニング(SFT)と選好最適化のデータセット及びアルゴリズムを用いた実験により、SFT段階が一般的にモデルの価値観を確立し、その後の選好最適化がこれらの価値観を再調整することは稀であることを明らかにした。さらに、価値観を制御的に操作することを可能にする合成選好データセットを使用して、選好データが一定であっても、異なる選好最適化アルゴリズムが異なる価値整合性の結果をもたらすことを発見した。我々の発見は、事後学習中に価値観がどのように学習されるかについて実践的な知見を提供し、データのキュレーション、ならびに人間的価値観へのモデル整合性を改善するための選好最適化のモデルとアルゴリズムの選択に有益な情報をもたらすものである。
English
As LLMs occupy an increasingly important role in society, they are more and more confronted with questions that require them not only to draw on their general knowledge but also to align with certain human value systems. Therefore, studying the alignment of LLMs with human values has become a crucial field of inquiry. Prior work, however, mostly focuses on evaluating the alignment of fully trained models, overlooking the training dynamics by which models learn to express human values. In this work, we investigate how and at which stage value alignment arises during the course of a model's post-training. Our analysis disentangles the effects of post-training algorithms and datasets, measuring both the magnitude and time of value drifts during training. Experimenting with Llama-3 and Qwen-3 models of different sizes and popular supervised fine-tuning (SFT) and preference optimization datasets and algorithms, we find that the SFT phase generally establishes a model's values, and subsequent preference optimization rarely re-aligns these values. Furthermore, using a synthetic preference dataset that enables controlled manipulation of values, we find that different preference optimization algorithms lead to different value alignment outcomes, even when preference data is held constant. Our findings provide actionable insights into how values are learned during post-training and help to inform data curation, as well as the selection of models and algorithms for preference optimization to improve model alignment to human values.
PDF121December 2, 2025