Фрагментированное цепочечное рассуждение
Fractured Chain-of-Thought Reasoning
May 19, 2025
Авторы: Baohao Liao, Hanze Dong, Yuhui Xu, Doyen Sahoo, Christof Monz, Junnan Li, Caiming Xiong
cs.AI
Аннотация
Методы масштабирования на этапе вывода значительно усилили способности крупных языковых моделей (LLM) к рассуждению, используя дополнительные вычислительные ресурсы на этапе вывода без необходимости переобучения. Аналогично, метод Chain-of-Thought (CoT) и его расширение, Long CoT, повышают точность за счет генерации богатых промежуточных траекторий рассуждений, однако эти подходы требуют значительных затрат токенов, что затрудняет их применение в условиях, чувствительных к задержкам. В данной работе мы сначала показываем, что усеченный CoT, который останавливает рассуждения до завершения и напрямую генерирует окончательный ответ, часто соответствует полному CoT при использовании значительно меньшего количества токенов. На основе этого наблюдения мы представляем Fractured Sampling — унифицированную стратегию вывода, которая интерполирует между полным CoT и выборкой только решения по трем ортогональным направлениям: (1) количество траекторий рассуждений, (2) количество окончательных решений на одну траекторию и (3) глубина, на которой обрываются траектории рассуждений. В ходе обширных экспериментов на пяти различных тестах на рассуждение и нескольких масштабах моделей мы демонстрируем, что Fractured Sampling последовательно достигает превосходного баланса между точностью и затратами, обеспечивая значительные логарифмически-линейные улучшения в метрике Pass@k при заданном бюджете токенов. Наш анализ показывает, как распределять вычисления по этим направлениям для максимизации производительности, прокладывая путь к более эффективному и масштабируемому рассуждению в LLM.
English
Inference-time scaling techniques have significantly bolstered the reasoning
capabilities of large language models (LLMs) by harnessing additional
computational effort at inference without retraining. Similarly,
Chain-of-Thought (CoT) prompting and its extension, Long CoT, improve accuracy
by generating rich intermediate reasoning trajectories, but these approaches
incur substantial token costs that impede their deployment in latency-sensitive
settings. In this work, we first show that truncated CoT, which stops reasoning
before completion and directly generates the final answer, often matches full
CoT sampling while using dramatically fewer tokens. Building on this insight,
we introduce Fractured Sampling, a unified inference-time strategy that
interpolates between full CoT and solution-only sampling along three orthogonal
axes: (1) the number of reasoning trajectories, (2) the number of final
solutions per trajectory, and (3) the depth at which reasoning traces are
truncated. Through extensive experiments on five diverse reasoning benchmarks
and several model scales, we demonstrate that Fractured Sampling consistently
achieves superior accuracy-cost trade-offs, yielding steep log-linear scaling
gains in Pass@k versus token budget. Our analysis reveals how to allocate
computation across these dimensions to maximize performance, paving the way for
more efficient and scalable LLM reasoning.Summary
AI-Generated Summary