Onde ocorre o colapso da diversidade de saída no pós-treinamento?

Resumo

Os modelos de linguagem pós-treinados produzem saídas menos variadas do que as suas contrapartes base. Este colapso da diversidade das saídas prejudica os métodos de escalonamento no tempo de inferência que dependem de amostras variadas e corre o risco de homogeneizar as saídas dos modelos em tarefas criativas e carregadas de valor. Trabalhos anteriores atribuem o colapso a métodos específicos de pós-treinamento, sem separar o papel da composição dos dados de treino do método, ou o formato de geração dos pesos do modelo. Nós rastreamos a diversidade das saídas através de três linhagens paralelas de pós-treinamento do Olmo 3 – Think (destilação de pensamento em cadeia), Instruct (dados multi-fonte abrangentes) e RL-Zero – em 15 tarefas e quatro métricas de diversidade textual. Descobrimos que a localização do colapso co-varia com a composição dos dados: a linhagem Think perde a maior parte da diversidade semântica no ajuste fino supervisionado, e o efeito do DPO é maior em Instruct do que em Think. Suprimir o raciocínio de pensamento em cadeia durante a inferência nos modelos Think reduz a precisão em tarefas difíceis, mas deixa inalterada a diversidade a nível de resposta, mostrando que o colapso está embutido nos pesos do modelo pelos dados de treino, e não imposto pelo formato de geração. A decomposição da perda de diversidade em seis tarefas verificáveis num componente de controlo de qualidade (remoção de saídas incorretas) e num componente residual (estreitamento genuíno entre saídas corretas) revela que a divisão é dependente da tarefa, e que os modelos Think retêm mais diversidade de respostas corretas do que os modelos Instruct, apesar de sofrerem um colapso maior no agregado. Os nossos resultados indicam que o colapso da diversidade é determinado durante o treino pela composição dos dados e não pode ser resolvido apenas no tempo de inferência.

English

Post-trained language models produce less varied outputs than their base counterparts. This output diversity collapse undermines inference-time scaling methods that rely on varied samples, and risks homogenizing model outputs on creative and value-laden tasks. Prior work attributes collapse to specific post-training methods, without separating the role of training data composition from the method, or the generation format from the model weights. We trace output diversity through three parallel post-training lineages of Olmo 3, Think (chain-of-thought distillation), Instruct (broad multi-source data), and RL-Zero, across 15 tasks and four text diversity metrics. We find that the location of collapse co-varies with data composition: the Think lineage loses most semantic diversity at supervised fine-tuning, and the effect of DPO is larger in Instruct than in Think. Suppressing chain-of-thought reasoning at inference in Think models drops accuracy on hard tasks, yet leaves answer-level diversity unchanged, showing that the collapse is embedded in the model weights by training data, not imposed by the generation format. Decomposing diversity loss on six verifiable tasks into a quality-control component (removal of incorrect outputs) and a residual component (genuine narrowing among correct outputs) reveals that the split is task-dependent, and Think models retain more correct-answer diversity than Instruct despite collapsing more in aggregate. Our results indicate that diversity collapse is determined during training by data composition and cannot be addressed at inference time alone.

Onde ocorre o colapso da diversidade de saída no pós-treinamento?

Where does output diversity collapse in post-training?

Resumo

Support