Почему модели рассуждения теряют охват? Роль данных и развилок на пути

Аннотация

Недавние успехи в области больших языковых моделей привели к появлению моделей рассуждений, которые демонстрируют высокую производительность на сложных задачах благодаря специализированным процедурам тонкой настройки. Хотя эти методы надежно повышают точность pass@1, предыдущие работы отметили, что они демонстрируют поведение сжатия покрытия, при котором pass@k ухудшается по сравнению с базовой моделью. В данной статье мы исследуем сжатие рассуждений, возникающее при пост-тренировке на основе SFT. Мы предполагаем, что это поведение обусловлено свойствами данных тонкой настройки, в частности, точками принятия решений или сценариями «развилки на дороге», где модель сталкивается с неразличимыми паттернами, имеющими несколько допустимых путей рассуждений. Для проверки этой гипотезы мы разрабатываем контролируемые тематические исследования, моделирующие такие сценарии с точками принятия решений, охватывающие неразличимые узлы в ветвлениях графа и режимы рассуждений. Отслеживая динамику пост-тренировки в этих условиях, мы обнаруживаем, что феномен сжатия тесно коррелирует с распространенностью сценариев с точками принятия решений в обучающих данных. Мы также демонстрируем, что это поведение сжатия может быть частично смягчено с помощью целенаправленного синтеза данных с точками принятия решений и более систематического механизма декодирования, стимулирующего разнообразие. Наши результаты определяют факторы, связанные с данными, как ключевой драйвер сжатия в моделях рассуждений, и подчеркивают эффективность подходов, учитывающих разнообразие, в качестве рычага для его контроля.

English

Recent progress in large language models has led to the emergence of reasoning models, which have shown strong performance on complex tasks through specialized fine-tuning procedures. While these methods reliably improve pass@1 accuracy, prior works have observed that they show a coverage shrinkage behavior, where pass@k degrades relative to the base model. In this paper, we investigate the reasoning shrinkage arise under SFT-based post-training. We hypothesize that this behavior is driven by properties of the fine-tuning data, specifically related to decision points or "forks in the road" scenarios where model faces indecipherable patterns with multiple valid reasoning paths. To test this hypothesis, we design controlled case studies that simulate such decision-point settings, spanning indecipherable nodes in graph branching, and reasoning modes. By tracking post-training dynamics in these settings, we find that the shrinkage phenomenon is tightly correlated with the prevalence of decision-point scenarios in the training data. We also demonstrate that this shrinkage behavior can be partially mitigated through targeted data synthesis design of decision-points, and a more systematic diversity-encouraging decoding mechanism. Our findings identify data-centric factors as a key driver of shrinkage in reasoning models and highlight diversity-aware designs as an effective lever for controlling it.