Waar stort outputdiversiteit in elkaar bij post-training?
Where does output diversity collapse in post-training?
April 17, 2026
Auteurs: Constantinos Karouzos, Xingwei Tan, Nikolaos Aletras
cs.AI
Samenvatting
Getrainde taalmodellen produceren minder gevarieerde uitvoer dan hun basisversies. Deze ineenstorting van uitvoerdiversiteit ondermijnt schaalingsmethoden tijdens inferentie die afhankelijk zijn van gevarieerde steekproeven, en riskeert een homogenisering van modeluitvoer bij creatieve en waardegebonden taken. Eerder onderzoek schreef de ineenstorting toe aan specifieke trainingsmethoden, zonder de rol van trainingsdatasamenstelling te scheiden van de methode, of het generatieformaat van de modelgewichten. Wij volgen de uitvoerdiversiteit door drie parallelle trainingslijnen van Olmo 3: Think (distillatie van ketendenken), Instruct (brede multi-brondata) en RL-Zero, over 15 taken en vier tekstdiversiteitsmetingen. Wij constateren dat de locatie van de ineenstorting samenhangt met datasamenstelling: de Think-lijn verliest de meeste semantische diversiteit bij supervised fine-tuning, en het effect van DPO is groter in Instruct dan in Think. Het onderdrukken van ketendenken tijdens inferentie bij Think-modellen verlaagt de nauwkeurigheid op moeilijke taken, maar laat antwoordniveau-diversiteit onveranderd, wat aantoont dat de ineenstorting is ingebed in de modelgewichten door trainingsdata, niet opgelegd door het generatieformaat. Het opdelen van diversiteitsverlies in zes verifieerbare taken in een kwaliteitscontrolecomponent (verwijdering van incorrecte uitvoer) en een restcomponent (echte vernauwing onder correcte uitvoer) toont aan dat de verdeling taakafhankelijk is, en dat Think-modellen meer diversiteit in correcte antwoorden behouden dan Instruct ondanks een grotere algehele ineenstorting. Onze resultaten geven aan dat diversiteitsineenstorting tijdens training wordt bepaald door datasamenstelling en niet alleen tijdens inferentie kan worden aangepakt.
English
Post-trained language models produce less varied outputs than their base counterparts. This output diversity collapse undermines inference-time scaling methods that rely on varied samples, and risks homogenizing model outputs on creative and value-laden tasks. Prior work attributes collapse to specific post-training methods, without separating the role of training data composition from the method, or the generation format from the model weights. We trace output diversity through three parallel post-training lineages of Olmo 3, Think (chain-of-thought distillation), Instruct (broad multi-source data), and RL-Zero, across 15 tasks and four text diversity metrics. We find that the location of collapse co-varies with data composition: the Think lineage loses most semantic diversity at supervised fine-tuning, and the effect of DPO is larger in Instruct than in Think. Suppressing chain-of-thought reasoning at inference in Think models drops accuracy on hard tasks, yet leaves answer-level diversity unchanged, showing that the collapse is embedded in the model weights by training data, not imposed by the generation format. Decomposing diversity loss on six verifiable tasks into a quality-control component (removal of incorrect outputs) and a residual component (genuine narrowing among correct outputs) reveals that the split is task-dependent, and Think models retain more correct-answer diversity than Instruct despite collapsing more in aggregate. Our results indicate that diversity collapse is determined during training by data composition and cannot be addressed at inference time alone.