Wertedrift: Verfolgung der Wertausrichtung während des Post-Trainings von LLMs
Value Drifts: Tracing Value Alignment During LLM Post-Training
October 30, 2025
papers.authors: Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Vered Shwartz, Siva Reddy
cs.AI
papers.abstract
Da LLMs eine zunehmend wichtige gesellschaftliche Rolle einnehmen, werden sie zunehmend mit Fragen konfrontiert, die nicht nur Allgemeinwissen erfordern, sondern auch die Übereinstimmung mit bestimmten menschlichen Wertesystemen verlangen. Daher hat sich die Untersuchung der Abstimmung von LLMs mit menschlichen Werten zu einem zentralen Forschungsgebiet entwickelt. Bisherige Arbeiten konzentrieren sich jedoch meist auf die Bewertung der Ausrichtung vollständig trainierter Modelle und vernachlässigen die Trainingsdynamik, durch die Modelle lernen, menschliche Werte auszudrücken. In dieser Arbeit untersuchen wir, wie und in welcher Phase die Wertabstimmung während des Post-Trainings eines Modells entsteht. Unsere Analyse unterscheidet die Effekte von Post-Training-Algorithmen und Datensätzen und misst sowohl das Ausmaß als auch den Zeitpunkt von Wertverschiebungen während des Trainings. In Experimenten mit Llama-3- und Qwen-3-Modellen verschiedener Größen sowie gängigen Datensätzen und Algorithmen für Supervised Fine-Tuning (SFT) und Preference Optimization stellen wir fest, dass die SFT-Phase generell die Werte eines Modells festlegt und nachfolgende Preference Optimization diese Werte selten neu ausrichtet. Darüber hinaus zeigen wir unter Verwendung eines synthetischen Präferenzdatensatzes, der eine kontrollierte Manipulation von Werten ermöglicht, dass verschiedene Preference-Optimization-Algorithmen zu unterschiedlichen Ergebnissen in der Wertabstimmung führen, selbst wenn die Präferenzdaten konstant gehalten werden. Unsere Erkenntnisse liefern umsetzbare Einsichten darüber, wie Werte während des Post-Trainings gelernt werden, und tragen dazu bei, die Datenkuratierung sowie die Auswahl von Modellen und Algorithmen für die Preference Optimization zu informieren, um die Abstimmung der Modelle an menschliche Werte zu verbessern.
English
As LLMs occupy an increasingly important role in society, they are more and
more confronted with questions that require them not only to draw on their
general knowledge but also to align with certain human value systems.
Therefore, studying the alignment of LLMs with human values has become a
crucial field of inquiry. Prior work, however, mostly focuses on evaluating the
alignment of fully trained models, overlooking the training dynamics by which
models learn to express human values. In this work, we investigate how and at
which stage value alignment arises during the course of a model's
post-training. Our analysis disentangles the effects of post-training
algorithms and datasets, measuring both the magnitude and time of value drifts
during training. Experimenting with Llama-3 and Qwen-3 models of different
sizes and popular supervised fine-tuning (SFT) and preference optimization
datasets and algorithms, we find that the SFT phase generally establishes a
model's values, and subsequent preference optimization rarely re-aligns these
values. Furthermore, using a synthetic preference dataset that enables
controlled manipulation of values, we find that different preference
optimization algorithms lead to different value alignment outcomes, even when
preference data is held constant. Our findings provide actionable insights into
how values are learned during post-training and help to inform data curation,
as well as the selection of models and algorithms for preference optimization
to improve model alignment to human values.