Дрейф ценностей: отслеживание согласования ценностей в процессе пост-обучения больших языковых моделей
Value Drifts: Tracing Value Alignment During LLM Post-Training
October 30, 2025
Авторы: Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Vered Shwartz, Siva Reddy
cs.AI
Аннотация
По мере того как большие языковые модели (LLM) занимают все более важное место в обществе, они все чаще сталкиваются с вопросами, которые требуют от них не только опоры на общие знания, но и соответствия определенным человеческим ценностным системам. Следовательно, изучение согласованности LLM с человеческими ценностями стало важной областью исследований. Однако предыдущие работы в основном сосредоточены на оценке согласованности полностью обученных моделей, упуская из виду динамику обучения, в ходе которой модели учатся выражать человеческие ценности. В данной работе мы исследуем, как и на каком этапе возникает ценностное согласование в процессе пост-обучения модели. Наш анализ разделяет влияние алгоритмов и наборов данных пост-обучения, измеряя как величину, так и время ценностных сдвигов в ходе обучения. Экспериментируя с моделями Llama-3 и Qwen-3 различных размеров, а также с популярными наборами данных и алгоритмами контролируемой тонкой настройки (SFT) и оптимизации предпочтений, мы обнаруживаем, что фаза SFT, как правило, формирует ценности модели, а последующая оптимизация предпочтений редко изменяет эти установленные ценности. Кроме того, используя синтетический набор данных о предпочтениях, который позволяет контролируемо манипулировать ценностями, мы выяснили, что разные алгоритмы оптимизации предпочтений приводят к разным результатам ценностного согласования, даже когда данные о предпочтениях остаются неизменными. Наши результаты дают практическое понимание того, как ценности усваиваются в процессе пост-обучения, и помогают проинформировать процессы отбора данных, а также выбора моделей и алгоритмов для оптимизации предпочтений с целью улучшения согласованности моделей с человеческими ценностями.
English
As LLMs occupy an increasingly important role in society, they are more and
more confronted with questions that require them not only to draw on their
general knowledge but also to align with certain human value systems.
Therefore, studying the alignment of LLMs with human values has become a
crucial field of inquiry. Prior work, however, mostly focuses on evaluating the
alignment of fully trained models, overlooking the training dynamics by which
models learn to express human values. In this work, we investigate how and at
which stage value alignment arises during the course of a model's
post-training. Our analysis disentangles the effects of post-training
algorithms and datasets, measuring both the magnitude and time of value drifts
during training. Experimenting with Llama-3 and Qwen-3 models of different
sizes and popular supervised fine-tuning (SFT) and preference optimization
datasets and algorithms, we find that the SFT phase generally establishes a
model's values, and subsequent preference optimization rarely re-aligns these
values. Furthermore, using a synthetic preference dataset that enables
controlled manipulation of values, we find that different preference
optimization algorithms lead to different value alignment outcomes, even when
preference data is held constant. Our findings provide actionable insights into
how values are learned during post-training and help to inform data curation,
as well as the selection of models and algorithms for preference optimization
to improve model alignment to human values.