ChatPaper.aiChatPaper

Deriva dei Valori: Tracciare l'Allineamento Valoriale Durante il Post-Addestramento degli LLM

Value Drifts: Tracing Value Alignment During LLM Post-Training

October 30, 2025
Autori: Mehar Bhatia, Shravan Nayak, Gaurav Kamath, Marius Mosbach, Karolina Stańczak, Vered Shwartz, Siva Reddy
cs.AI

Abstract

Man mano che i modelli linguistici di grandi dimensioni (LLM) assumono un ruolo sempre più importante nella società, si trovano sempre più spesso a dover affrontare domande che richiedono non solo di attingere alla loro conoscenza generale, ma anche di allinearsi a determinati sistemi di valori umani. Pertanto, lo studio dell'allineamento degli LLM con i valori umani è diventato un campo d'indagine cruciale. Tuttavia, i lavori precedenti si sono concentrati prevalentemente sulla valutazione dell'allineamento di modelli completamente addestrati, trascurando le dinamiche di apprendimento attraverso cui i modelli imparano a esprimere valori umani. In questo lavoro, indaghiamo come e in quale fase l'allineamento ai valori emerge durante il corso del post-addestramento di un modello. La nostra analisi distingue gli effetti degli algoritmi e dei dataset di post-addestramento, misurando sia l'entità che il momento delle derive valoriali durante l'addestramento. Sperimentando con modelli Llama-3 e Qwen-3 di diverse dimensioni e con popolari dataset e algoritmi di fine-tuning supervisionato (SFT) e di ottimizzazione delle preferenze, abbiamo riscontrato che la fase SFT stabilisce generalmente i valori di un modello, e le successive ottimizzazioni delle preferenze raramente riallineano questi valori. Inoltre, utilizzando un dataset sintetico di preferenze che consente una manipolazione controllata dei valori, abbiamo scoperto che diversi algoritmi di ottimizzazione delle preferenze portano a risultati di allineamento valoriale differenti, anche quando i dati sulle preferenze sono mantenuti costanti. I nostri risultati forniscono indicazioni operative su come i valori vengono appresi durante il post-addestramento e contribuiscono a orientare la curazione dei dati, nonché la selezione di modelli e algoritmi per l'ottimizzazione delle preferenze, al fine di migliorare l'allineamento del modello ai valori umani.
English
As LLMs occupy an increasingly important role in society, they are more and more confronted with questions that require them not only to draw on their general knowledge but also to align with certain human value systems. Therefore, studying the alignment of LLMs with human values has become a crucial field of inquiry. Prior work, however, mostly focuses on evaluating the alignment of fully trained models, overlooking the training dynamics by which models learn to express human values. In this work, we investigate how and at which stage value alignment arises during the course of a model's post-training. Our analysis disentangles the effects of post-training algorithms and datasets, measuring both the magnitude and time of value drifts during training. Experimenting with Llama-3 and Qwen-3 models of different sizes and popular supervised fine-tuning (SFT) and preference optimization datasets and algorithms, we find that the SFT phase generally establishes a model's values, and subsequent preference optimization rarely re-aligns these values. Furthermore, using a synthetic preference dataset that enables controlled manipulation of values, we find that different preference optimization algorithms lead to different value alignment outcomes, even when preference data is held constant. Our findings provide actionable insights into how values are learned during post-training and help to inform data curation, as well as the selection of models and algorithms for preference optimization to improve model alignment to human values.
PDF121December 2, 2025