Deriva de Valores: Rastreando la Alineación de Valores Durante el Post-entrenamiento de Modelos de Lenguaje Grandes
Value Drifts: Tracing Value Alignment During LLM Post-Training
October 30, 2025
Autores: Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Vered Shwartz, Siva Reddy
cs.AI
Resumen
A medida que los LLM ocupan un papel cada vez más importante en la sociedad, se enfrentan con mayor frecuencia a preguntas que requieren no solo recurrir a su conocimiento general, sino también alinearse con ciertos sistemas de valores humanos. Por lo tanto, el estudio de la alineación de los LLM con los valores humanos se ha convertido en un campo de investigación crucial. Sin embargo, trabajos previos se centran principalmente en evaluar la alineación de modelos completamente entrenados, pasando por alto la dinámica del entrenamiento mediante la cual los modelos aprenden a expresar valores humanos. En este trabajo, investigamos cómo y en qué etapa surge la alineación de valores durante el proceso de post-entrenamiento de un modelo. Nuestro análisis desentraña los efectos de los algoritmos y conjuntos de datos de post-entrenamiento, midiendo tanto la magnitud como el momento de las derivas de valor durante el entrenamiento. Experimentando con modelos Llama-3 y Qwen-3 de diferentes tamaños, y con algoritmos y conjuntos de datos populares de fine-tuning supervisado (SFT) y optimización de preferencias, encontramos que la fase SFT generalmente establece los valores de un modelo, y la posterior optimización de preferencias rara vez realinea estos valores. Además, utilizando un conjunto de datos de preferencias sintéticas que permite la manipulación controlada de valores, encontramos que diferentes algoritmos de optimización de preferencias conducen a resultados de alineación de valores distintos, incluso cuando los datos de preferencia se mantienen constantes. Nuestros hallazgos proporcionan información práctica sobre cómo se aprenden los valores durante el post-entrenamiento y ayudan a fundamentar la curación de datos, así como la selección de modelos y algoritmos para la optimización de preferencias, con el fin de mejorar la alineación de los modelos con los valores humanos.
English
As LLMs occupy an increasingly important role in society, they are more and
more confronted with questions that require them not only to draw on their
general knowledge but also to align with certain human value systems.
Therefore, studying the alignment of LLMs with human values has become a
crucial field of inquiry. Prior work, however, mostly focuses on evaluating the
alignment of fully trained models, overlooking the training dynamics by which
models learn to express human values. In this work, we investigate how and at
which stage value alignment arises during the course of a model's
post-training. Our analysis disentangles the effects of post-training
algorithms and datasets, measuring both the magnitude and time of value drifts
during training. Experimenting with Llama-3 and Qwen-3 models of different
sizes and popular supervised fine-tuning (SFT) and preference optimization
datasets and algorithms, we find that the SFT phase generally establishes a
model's values, and subsequent preference optimization rarely re-aligns these
values. Furthermore, using a synthetic preference dataset that enables
controlled manipulation of values, we find that different preference
optimization algorithms lead to different value alignment outcomes, even when
preference data is held constant. Our findings provide actionable insights into
how values are learned during post-training and help to inform data curation,
as well as the selection of models and algorithms for preference optimization
to improve model alignment to human values.