Waardedriften: Het traceren van waarde-afstemming tijdens post-training van grote taalmodellen
Value Drifts: Tracing Value Alignment During LLM Post-Training
October 30, 2025
Auteurs: Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Vered Shwartz, Siva Reddy
cs.AI
Samenvatting
Naarmate grote taalmodellen (LLM's) een steeds belangrijkere rol in de samenleving innemen, worden ze steeds vaker geconfronteerd met vragen die niet alleen een beroep doen op hun algemene kennis, maar ook vereisen dat ze zich afstemmen op bepaalde menselijke waardesystemen. Daarom is het bestuderen van de afstemming van LLM's op menselijke waarden een cruciaal onderzoeksgebied geworden. Eerder werk richtte zich echter voornamelijk op het evalueren van de afstemming van volledig getrainde modellen, waarbij de trainingsdynamiek waarmee modellen leren om menselijke waarden uit te drukken over het hoofd werd gezien. In dit werk onderzoeken we hoe en in welke fase waarde-afstemming ontstaat tijdens het post-trainingstraject van een model. Onze analyse ontwart de effecten van post-training-algoritmen en datasets, en meet zowel de omvang als het tijdstip van waardeveranderingen tijdens de training. Door te experimenteren met Llama-3- en Qwen-3-modellen van verschillende groottes, en met populaire datasets en algoritmen voor supervised fine-tuning (SFT) en preference optimization, stellen we vast dat de SFT-fase over het algemeen de waarden van een model vaststelt, en dat latere preference optimization deze waarden zelden opnieuw afstemt. Verder vinden we, met behulp van een synthetische preference-dataset die gecontroleerde manipulatie van waarden mogelijk maakt, dat verschillende preference-optimalisatie-algoritmen leiden tot verschillende resultaten in waarde-afstemming, zelfs wanneer de preference-data constant wordt gehouden. Onze bevindingen bieden praktische inzichten in hoe waarden worden aangeleerd tijdens post-training en helpen bij het informeren van datacuratie, evenals de selectie van modellen en algoritmen voor preference optimization om de afstemming van modellen op menselijke waarden te verbeteren.
English
As LLMs occupy an increasingly important role in society, they are more and
more confronted with questions that require them not only to draw on their
general knowledge but also to align with certain human value systems.
Therefore, studying the alignment of LLMs with human values has become a
crucial field of inquiry. Prior work, however, mostly focuses on evaluating the
alignment of fully trained models, overlooking the training dynamics by which
models learn to express human values. In this work, we investigate how and at
which stage value alignment arises during the course of a model's
post-training. Our analysis disentangles the effects of post-training
algorithms and datasets, measuring both the magnitude and time of value drifts
during training. Experimenting with Llama-3 and Qwen-3 models of different
sizes and popular supervised fine-tuning (SFT) and preference optimization
datasets and algorithms, we find that the SFT phase generally establishes a
model's values, and subsequent preference optimization rarely re-aligns these
values. Furthermore, using a synthetic preference dataset that enables
controlled manipulation of values, we find that different preference
optimization algorithms lead to different value alignment outcomes, even when
preference data is held constant. Our findings provide actionable insights into
how values are learned during post-training and help to inform data curation,
as well as the selection of models and algorithms for preference optimization
to improve model alignment to human values.