Raciocínio em Cadeia de Pensamento Fragmentada
Fractured Chain-of-Thought Reasoning
May 19, 2025
Autores: Baohao Liao, Hanze Dong, Yuhui Xu, Doyen Sahoo, Christof Monz, Junnan Li, Caiming Xiong
cs.AI
Resumo
Técnicas de escalonamento no tempo de inferência têm fortalecido significativamente as capacidades de raciocínio de grandes modelos de linguagem (LLMs) ao aproveitar esforço computacional adicional durante a inferência sem a necessidade de retreinamento. Da mesma forma, o prompting de Cadeia de Pensamento (CoT) e sua extensão, Long CoT, melhoram a precisão ao gerar trajetórias intermediárias de raciocínio ricas, mas essas abordagens incorrem em custos substanciais de tokens que dificultam sua implantação em cenários sensíveis à latência. Neste trabalho, primeiro mostramos que o CoT truncado, que interrompe o raciocínio antes da conclusão e gera diretamente a resposta final, frequentemente iguala a amostragem completa de CoT enquanto utiliza dramaticamente menos tokens. Com base nessa percepção, introduzimos a Amostragem Fracturada, uma estratégia unificada de inferência que interpola entre a amostragem completa de CoT e a amostragem apenas da solução ao longo de três eixos ortogonais: (1) o número de trajetórias de raciocínio, (2) o número de soluções finais por trajetória e (3) a profundidade na qual os rastros de raciocínio são truncados. Por meio de extensos experimentos em cinco benchmarks diversos de raciocínio e várias escalas de modelos, demonstramos que a Amostragem Fracturada consistentemente alcança compensações superiores entre precisão e custo, gerando ganhos de escalonamento log-linear acentuados em Pass@k versus orçamento de tokens. Nossa análise revela como alocar computação nessas dimensões para maximizar o desempenho, abrindo caminho para um raciocínio mais eficiente e escalável em LLMs.
English
Inference-time scaling techniques have significantly bolstered the reasoning
capabilities of large language models (LLMs) by harnessing additional
computational effort at inference without retraining. Similarly,
Chain-of-Thought (CoT) prompting and its extension, Long CoT, improve accuracy
by generating rich intermediate reasoning trajectories, but these approaches
incur substantial token costs that impede their deployment in latency-sensitive
settings. In this work, we first show that truncated CoT, which stops reasoning
before completion and directly generates the final answer, often matches full
CoT sampling while using dramatically fewer tokens. Building on this insight,
we introduce Fractured Sampling, a unified inference-time strategy that
interpolates between full CoT and solution-only sampling along three orthogonal
axes: (1) the number of reasoning trajectories, (2) the number of final
solutions per trajectory, and (3) the depth at which reasoning traces are
truncated. Through extensive experiments on five diverse reasoning benchmarks
and several model scales, we demonstrate that Fractured Sampling consistently
achieves superior accuracy-cost trade-offs, yielding steep log-linear scaling
gains in Pass@k versus token budget. Our analysis reveals how to allocate
computation across these dimensions to maximize performance, paving the way for
more efficient and scalable LLM reasoning.