Dove collassa la diversità dell'output nel post-addestramento?

Abstract

I modelli linguistici addestrati in post-addestramento producono output meno vari rispetto alle loro controparti base. Questo collasso della diversità degli output mina i metodi di scaling al momento dell'inferenza che si basano su campioni variati e rischia di omogeneizzare gli output del modello su compiti creativi e carichi di valori. I lavori precedenti attribuiscono il collasso a metodi specifici di post-addestramento, senza separare il ruolo della composizione dei dati di addestramento dal metodo, o il formato di generazione dai pesi del modello. Tracciamo la diversità degli output attraverso tre lignaggi paralleli di post-addestramento di Olmo 3 – Think (distillazione chain-of-thought), Instruct (dati multi-fonte ampi) e RL-Zero – su 15 compiti e quattro metriche di diversità testuale. Troviamo che la localizzazione del collasso covaria con la composizione dei dati: il lignaggio Think perde la maggior parte della diversità semantica durante il fine-tuning supervisionato, e l'effetto del DPO è maggiore in Instruct che in Think. Sopprimere il ragionamento chain-of-thought al momento dell'inferenza nei modelli Think riduce l'accuratezza sui compiti difficili, ma lascia invariata la diversità a livello di risposta, dimostrando che il collasso è incorporato nei pesi del modello dai dati di addestramento, non imposto dal formato di generazione. Scomponendo la perdita di diversità su sei compiti verificabili in una componente di controllo qualità (rimozione degli output errati) e una componente residua (restringimento genuino tra gli output corretti) si rivela che la suddivisione è dipendente dal compito, e i modelli Think conservano una maggiore diversità di risposte corrette rispetto a Instruct nonostante collassino di più in aggregato. I nostri risultati indicano che il collasso della diversità è determinato durante l'addestramento dalla composizione dei dati e non può essere affrontato solo al momento dell'inferenza.

English

Post-trained language models produce less varied outputs than their base counterparts. This output diversity collapse undermines inference-time scaling methods that rely on varied samples, and risks homogenizing model outputs on creative and value-laden tasks. Prior work attributes collapse to specific post-training methods, without separating the role of training data composition from the method, or the generation format from the model weights. We trace output diversity through three parallel post-training lineages of Olmo 3, Think (chain-of-thought distillation), Instruct (broad multi-source data), and RL-Zero, across 15 tasks and four text diversity metrics. We find that the location of collapse co-varies with data composition: the Think lineage loses most semantic diversity at supervised fine-tuning, and the effect of DPO is larger in Instruct than in Think. Suppressing chain-of-thought reasoning at inference in Think models drops accuracy on hard tasks, yet leaves answer-level diversity unchanged, showing that the collapse is embedded in the model weights by training data, not imposed by the generation format. Decomposing diversity loss on six verifiable tasks into a quality-control component (removal of incorrect outputs) and a residual component (genuine narrowing among correct outputs) reveals that the split is task-dependent, and Think models retain more correct-answer diversity than Instruct despite collapsing more in aggregate. Our results indicate that diversity collapse is determined during training by data composition and cannot be addressed at inference time alone.

Dove collassa la diversità dell'output nel post-addestramento?

Where does output diversity collapse in post-training?

Abstract

Support