Raisonnement en Chaîne de Pensée Fragmentée
Fractured Chain-of-Thought Reasoning
May 19, 2025
Auteurs: Baohao Liao, Hanze Dong, Yuhui Xu, Doyen Sahoo, Christof Monz, Junnan Li, Caiming Xiong
cs.AI
Résumé
Les techniques de mise à l'échelle au moment de l'inférence ont considérablement renforcé les capacités de raisonnement des grands modèles de langage (LLM) en exploitant un effort computationnel supplémentaire lors de l'inférence sans nécessiter de réentraînement. De même, l'incitation par chaîne de pensée (Chain-of-Thought, CoT) et son extension, Long CoT, améliorent la précision en générant des trajectoires de raisonnement intermédiaires riches, mais ces approches entraînent des coûts en tokens substantiels qui entravent leur déploiement dans des contextes sensibles à la latence. Dans ce travail, nous montrons d'abord que la CoT tronquée, qui interrompt le raisonnement avant son achèvement et génère directement la réponse finale, correspond souvent à l'échantillonnage complet de la CoT tout en utilisant nettement moins de tokens. En nous appuyant sur cette observation, nous introduisons l'échantillonnage fracturé (Fractured Sampling), une stratégie unifiée au moment de l'inférence qui interpole entre la CoT complète et l'échantillonnage de solutions uniquement selon trois axes orthogonaux : (1) le nombre de trajectoires de raisonnement, (2) le nombre de solutions finales par trajectoire, et (3) la profondeur à laquelle les traces de raisonnement sont tronquées. À travers des expériences approfondies sur cinq benchmarks de raisonnement diversifiés et plusieurs échelles de modèles, nous démontrons que l'échantillonnage fracturé atteint systématiquement des compromis précision-coût supérieurs, offrant des gains d'échelle log-linéaires marqués en Pass@k par rapport au budget en tokens. Notre analyse révèle comment allouer la computation à travers ces dimensions pour maximiser les performances, ouvrant la voie à un raisonnement LLM plus efficace et évolutif.
English
Inference-time scaling techniques have significantly bolstered the reasoning
capabilities of large language models (LLMs) by harnessing additional
computational effort at inference without retraining. Similarly,
Chain-of-Thought (CoT) prompting and its extension, Long CoT, improve accuracy
by generating rich intermediate reasoning trajectories, but these approaches
incur substantial token costs that impede their deployment in latency-sensitive
settings. In this work, we first show that truncated CoT, which stops reasoning
before completion and directly generates the final answer, often matches full
CoT sampling while using dramatically fewer tokens. Building on this insight,
we introduce Fractured Sampling, a unified inference-time strategy that
interpolates between full CoT and solution-only sampling along three orthogonal
axes: (1) the number of reasoning trajectories, (2) the number of final
solutions per trajectory, and (3) the depth at which reasoning traces are
truncated. Through extensive experiments on five diverse reasoning benchmarks
and several model scales, we demonstrate that Fractured Sampling consistently
achieves superior accuracy-cost trade-offs, yielding steep log-linear scaling
gains in Pass@k versus token budget. Our analysis reveals how to allocate
computation across these dimensions to maximize performance, paving the way for
more efficient and scalable LLM reasoning.Summary
AI-Generated Summary