¿Por qué los modelos de razonamiento pierden cobertura? El papel de los datos y las bifurcaciones en el camino

Resumen

El progreso reciente en modelos de lenguaje de gran escala ha dado lugar a la aparición de modelos de razonamiento, que han demostrado un rendimiento sólido en tareas complejas mediante procedimientos especializados de ajuste fino. Si bien estos métodos mejoran de manera confiable la precisión pass@1, trabajos previos han observado que presentan un comportamiento de contracción de cobertura, donde pass@k se degrada en relación con el modelo base. En este artículo, investigamos la contracción del razonamiento que surge bajo el entrenamiento posterior basado en SFT. Postulamos que este comportamiento está impulsado por propiedades de los datos de ajuste fino, específicamente relacionadas con puntos de decisión o escenarios de "bifurcaciones en el camino", donde el modelo enfrenta patrones indescifrables con múltiples rutas de razonamiento válidas. Para probar esta hipótesis, diseñamos estudios de caso controlados que simulan dichos entornos de puntos de decisión, abarcando nodos indescifrables en ramificaciones de grafos y modos de razonamiento. Al rastrear la dinámica posterior al entrenamiento en estos entornos, encontramos que el fenómeno de contracción está estrechamente correlacionado con la prevalencia de escenarios de puntos de decisión en los datos de entrenamiento. También demostramos que este comportamiento de contracción puede mitigarse parcialmente mediante un diseño dirigido de síntesis de datos de puntos de decisión, y un mecanismo de decodificación más sistemático que fomente la diversidad. Nuestros hallazgos identifican factores centrados en los datos como un motor clave de la contracción en los modelos de razonamiento y destacan los diseños que incorporan la diversidad como una palanca efectiva para controlarla.

English

Recent progress in large language models has led to the emergence of reasoning models, which have shown strong performance on complex tasks through specialized fine-tuning procedures. While these methods reliably improve pass@1 accuracy, prior works have observed that they show a coverage shrinkage behavior, where pass@k degrades relative to the base model. In this paper, we investigate the reasoning shrinkage arise under SFT-based post-training. We hypothesize that this behavior is driven by properties of the fine-tuning data, specifically related to decision points or "forks in the road" scenarios where model faces indecipherable patterns with multiple valid reasoning paths. To test this hypothesis, we design controlled case studies that simulate such decision-point settings, spanning indecipherable nodes in graph branching, and reasoning modes. By tracking post-training dynamics in these settings, we find that the shrinkage phenomenon is tightly correlated with the prevalence of decision-point scenarios in the training data. We also demonstrate that this shrinkage behavior can be partially mitigated through targeted data synthesis design of decision-points, and a more systematic diversity-encouraging decoding mechanism. Our findings identify data-centric factors as a key driver of shrinkage in reasoning models and highlight diversity-aware designs as an effective lever for controlling it.