Por que os modelos de raciocínio perdem cobertura? O papel dos dados e das bifurcações no caminho

Resumo

O progresso recente em modelos de linguagem de grande escala levou ao surgimento de modelos de raciocínio, que demonstram desempenho robusto em tarefas complexas por meio de procedimentos especializados de ajuste fino. Embora esses métodos melhorem de forma confiável a precisão pass@1, trabalhos anteriores observaram que eles apresentam um comportamento de encolhimento de cobertura, no qual a métrica pass@k se degrada em relação ao modelo base. Neste artigo, investigamos o encolhimento de raciocínio que surge sob o pós-treinamento baseado em SFT. Hipotetizamos que esse comportamento é impulsionado por propriedades dos dados de ajuste fino, especificamente relacionadas a pontos de decisão ou cenários de "bifurcação no caminho", onde o modelo enfrenta padrões indecifráveis com múltiplos caminhos de raciocínio válidos. Para testar essa hipótese, projetamos estudos de caso controlados que simulam tais configurações de ponto de decisão, abrangendo nós indecifráveis em ramificações de grafos e modos de raciocínio. Ao rastrear as dinâmicas de pós-treinamento nessas configurações, descobrimos que o fenômeno de encolhimento está fortemente correlacionado com a prevalência de cenários de ponto de decisão nos dados de treinamento. Também demonstramos que esse comportamento de encolhimento pode ser parcialmente mitigado por meio de um design direcionado de síntese de dados para pontos de decisão e de um mecanismo de decodificação mais sistemático que incentiva a diversidade. Nossas descobertas identificam fatores centrados em dados como um impulsionador chave do encolhimento em modelos de raciocínio e destacam designs conscientes da diversidade como uma alavanca eficaz para controlá-lo.

English

Recent progress in large language models has led to the emergence of reasoning models, which have shown strong performance on complex tasks through specialized fine-tuning procedures. While these methods reliably improve pass@1 accuracy, prior works have observed that they show a coverage shrinkage behavior, where pass@k degrades relative to the base model. In this paper, we investigate the reasoning shrinkage arise under SFT-based post-training. We hypothesize that this behavior is driven by properties of the fine-tuning data, specifically related to decision points or "forks in the road" scenarios where model faces indecipherable patterns with multiple valid reasoning paths. To test this hypothesis, we design controlled case studies that simulate such decision-point settings, spanning indecipherable nodes in graph branching, and reasoning modes. By tracking post-training dynamics in these settings, we find that the shrinkage phenomenon is tightly correlated with the prevalence of decision-point scenarios in the training data. We also demonstrate that this shrinkage behavior can be partially mitigated through targeted data synthesis design of decision-points, and a more systematic diversity-encouraging decoding mechanism. Our findings identify data-centric factors as a key driver of shrinkage in reasoning models and highlight diversity-aware designs as an effective lever for controlling it.