ChatPaper.aiChatPaper

가치 표류: 대규모 언어 모델 사후 학습 과정에서의 가치 정렬 추적

Value Drifts: Tracing Value Alignment During LLM Post-Training

October 30, 2025
저자: Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Vered Shwartz, Siva Reddy
cs.AI

초록

LLM이 사회에서 점점 더 중요한 역할을 차지함에 따라, 이들은 일반적인 지식을 활용할 뿐만 아니라 특정 인간 가치 체계에 부합하도록 답변해야 하는 질문을 점점 더 많이 접하게 됩니다. 따라서 LLM의 인간 가치 정렬(alignment)을 연구하는 것은 중요한 연구 분야가 되었습니다. 그러나 기존 연구는 대부분 완전히 훈련된 모델의 정렬 성능을 평가하는 데 집중하여, 모델이 인간 가치를 표현하는 법을 학습하는 훈련 역동성(training dynamics)을 간과해 왔습니다. 본 연구에서는 모델의 사후 훈련(post-training) 과정에서 가치 정렬이 어떻게, 그리고 어떤 단계에서 발생하는지 조사합니다. 우리의 분석은 사후 훈련 알고리즘과 데이터셋의 효과를 분리하여 훈련 동안 발생하는 가치 변화(v value drift)의 규모와 시점을 측정합니다. 다양한 크기의 Llama-3 및 Qwen-3 모델과 널리 사용되는 지도 미세 조정(SFT) 및 선호도 최적화(preference optimization) 데이터셋과 알고리즘을 실험한 결과, SFT 단계에서 일반적으로 모델의 가치가 확립되며, 이후의 선호도 최적화는 이러한 가치를 재정렬하는 경우가 드물다는 사실을 발견했습니다. 더 나아가, 가치를 통제적으로 조작할 수 있는 합성 선호도 데이터셋(synthetic preference dataset)을 사용하여, 선호도 데이터가 동일하게 유지되더라도 서로 다른 선호도 최적화 알고리즘이 상이한 가치 정렬 결과를 초래한다는 점을 확인했습니다. 우리의 연구 결과는 사후 훈련 과정에서 가치가 어떻게 학습되는지에 대한 실질적인 통찰을 제공하며, 인간 가치에의 모델 정렬을 개선하기 위한 데이터 관리(curation) 및 선호도 최적화를 위한 모델과 알고리즘 선택에 유용한 정보를 제공합니다.
English
As LLMs occupy an increasingly important role in society, they are more and more confronted with questions that require them not only to draw on their general knowledge but also to align with certain human value systems. Therefore, studying the alignment of LLMs with human values has become a crucial field of inquiry. Prior work, however, mostly focuses on evaluating the alignment of fully trained models, overlooking the training dynamics by which models learn to express human values. In this work, we investigate how and at which stage value alignment arises during the course of a model's post-training. Our analysis disentangles the effects of post-training algorithms and datasets, measuring both the magnitude and time of value drifts during training. Experimenting with Llama-3 and Qwen-3 models of different sizes and popular supervised fine-tuning (SFT) and preference optimization datasets and algorithms, we find that the SFT phase generally establishes a model's values, and subsequent preference optimization rarely re-aligns these values. Furthermore, using a synthetic preference dataset that enables controlled manipulation of values, we find that different preference optimization algorithms lead to different value alignment outcomes, even when preference data is held constant. Our findings provide actionable insights into how values are learned during post-training and help to inform data curation, as well as the selection of models and algorithms for preference optimization to improve model alignment to human values.
PDF121December 2, 2025