ChatPaper.aiChatPaper

Dérives des Valeurs : Tracer l'Alignement des Valeurs Durant le Post-Entraînement des Modèles de Langue

Value Drifts: Tracing Value Alignment During LLM Post-Training

October 30, 2025
papers.authors: Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Vered Shwartz, Siva Reddy
cs.AI

papers.abstract

Alors que les LLM occupent une place de plus en plus importante dans la société, ils sont confrontés à un nombre croissant de questions qui exigent non seulement de mobiliser leurs connaissances générales, mais aussi de s'aligner sur certains systèmes de valeurs humaines. Par conséquent, l'étude de l'alignement des LLM sur les valeurs humaines est devenue un domaine de recherche crucial. Cependant, les travaux antérieurs se concentrent principalement sur l'évaluation de l'alignement des modèles entièrement entraînés, négligeant la dynamique d'apprentissage par laquelle les modèles apprennent à exprimer les valeurs humaines. Dans ce travail, nous étudions comment et à quel stade l'alignement des valeurs émerge au cours du post-entraînement d'un modèle. Notre analyse distingue les effets des algorithmes et des jeux de données de post-entraînement, en mesurant à la fois l'amplitude et le moment des dérives de valeurs pendant l'entraînement. En expérimentant avec des modèles Llama-3 et Qwen-3 de différentes tailles, ainsi qu'avec des jeux de données et algorithmes populaires de fine-tuning supervisé (SFT) et d'optimisation des préférences, nous constatons que la phase SFT établit généralement les valeurs d'un modèle, et que l'optimisation des préférences qui suit ne réaligne que rarement ces valeurs. De plus, en utilisant un jeu de données de préférences synthétiques permettant une manipulation contrôlée des valeurs, nous constatons que différents algorithmes d'optimisation des préférences conduisent à des résultats d'alignement des valeurs différents, même lorsque les données de préférences sont maintenues constantes. Nos résultats fournissent des indications pratiques sur la manière dont les valeurs sont apprises pendant le post-entraînement et contribuent à éclairer la curation des données, ainsi que la sélection des modèles et des algorithmes pour l'optimisation des préférences, afin d'améliorer l'alignement des modèles sur les valeurs humaines.
English
As LLMs occupy an increasingly important role in society, they are more and more confronted with questions that require them not only to draw on their general knowledge but also to align with certain human value systems. Therefore, studying the alignment of LLMs with human values has become a crucial field of inquiry. Prior work, however, mostly focuses on evaluating the alignment of fully trained models, overlooking the training dynamics by which models learn to express human values. In this work, we investigate how and at which stage value alignment arises during the course of a model's post-training. Our analysis disentangles the effects of post-training algorithms and datasets, measuring both the magnitude and time of value drifts during training. Experimenting with Llama-3 and Qwen-3 models of different sizes and popular supervised fine-tuning (SFT) and preference optimization datasets and algorithms, we find that the SFT phase generally establishes a model's values, and subsequent preference optimization rarely re-aligns these values. Furthermore, using a synthetic preference dataset that enables controlled manipulation of values, we find that different preference optimization algorithms lead to different value alignment outcomes, even when preference data is held constant. Our findings provide actionable insights into how values are learned during post-training and help to inform data curation, as well as the selection of models and algorithms for preference optimization to improve model alignment to human values.
PDF121December 2, 2025