Desvios de Valores: Rastreando o Alinhamento de Valores Durante o Pós-Treinamento de LLMs
Value Drifts: Tracing Value Alignment During LLM Post-Training
October 30, 2025
Autores: Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Vered Shwartz, Siva Reddy
cs.AI
Resumo
À medida que os LLMs assumem um papel cada vez mais importante na sociedade, eles são cada vez mais confrontados com questões que exigem não apenas que recorram ao seu conhecimento geral, mas também que se alinhem a certos sistemas de valores humanos. Portanto, estudar o alinhamento dos LLMs com os valores humanos tornou-se um campo de investigação crucial. No entanto, trabalhos anteriores concentram-se maioritariamente na avaliação do alinhamento de modelos totalmente treinados, negligenciando a dinâmica de treino através da qual os modelos aprendem a expressar valores humanos. Neste trabalho, investigamos como e em que fase o alinhamento de valores surge durante o curso do pós-treino de um modelo. A nossa análise separa os efeitos dos algoritmos e conjuntos de dados de pós-treino, medindo tanto a magnitude como o momento das derivas de valor durante o treino. Ao experimentar com modelos Llama-3 e Qwen-3 de diferentes tamanhos e com conjuntos de dados e algoritmos populares de fine-tuning supervisionado (SFT) e otimização de preferências, descobrimos que a fase de SFT geralmente estabelece os valores de um modelo, e a subsequente otimização de preferências raramente realinha esses valores. Além disso, usando um conjunto de dados de preferências sintético que permite a manipulação controlada de valores, descobrimos que diferentes algoritmos de otimização de preferências levam a resultados de alinhamento de valores diferentes, mesmo quando os dados de preferência são mantidos constantes. As nossas descobertas fornecem perspetivas acionáveis sobre como os valores são aprendidos durante o pós-treino e ajudam a fundamentar a curadoria de dados, bem como a seleção de modelos e algoritmos para otimização de preferências, com o objetivo de melhorar o alinhamento dos modelos com os valores humanos.
English
As LLMs occupy an increasingly important role in society, they are more and
more confronted with questions that require them not only to draw on their
general knowledge but also to align with certain human value systems.
Therefore, studying the alignment of LLMs with human values has become a
crucial field of inquiry. Prior work, however, mostly focuses on evaluating the
alignment of fully trained models, overlooking the training dynamics by which
models learn to express human values. In this work, we investigate how and at
which stage value alignment arises during the course of a model's
post-training. Our analysis disentangles the effects of post-training
algorithms and datasets, measuring both the magnitude and time of value drifts
during training. Experimenting with Llama-3 and Qwen-3 models of different
sizes and popular supervised fine-tuning (SFT) and preference optimization
datasets and algorithms, we find that the SFT phase generally establishes a
model's values, and subsequent preference optimization rarely re-aligns these
values. Furthermore, using a synthetic preference dataset that enables
controlled manipulation of values, we find that different preference
optimization algorithms lead to different value alignment outcomes, even when
preference data is held constant. Our findings provide actionable insights into
how values are learned during post-training and help to inform data curation,
as well as the selection of models and algorithms for preference optimization
to improve model alignment to human values.