ChatPaper.aiChatPaper

Ragionamento a Catena di Pensiero Frammentato

Fractured Chain-of-Thought Reasoning

May 19, 2025
Autori: Baohao Liao, Hanze Dong, Yuhui Xu, Doyen Sahoo, Christof Monz, Junnan Li, Caiming Xiong
cs.AI

Abstract

Le tecniche di ridimensionamento al momento dell'inferenza hanno rafforzato significativamente le capacità di ragionamento dei grandi modelli linguistici (LLM) sfruttando ulteriori risorse computazionali durante l'inferenza senza necessità di riaddestramento. Allo stesso modo, il prompting a catena di pensiero (Chain-of-Thought, CoT) e la sua estensione, Long CoT, migliorano l'accuratezza generando traiettorie di ragionamento intermedie ricche, ma questi approcci comportano costi sostanziali in termini di token che ne ostacolano l'adozione in contesti sensibili alla latenza. In questo lavoro, dimostriamo innanzitutto che il CoT troncato, che interrompe il ragionamento prima del completamento e genera direttamente la risposta finale, spesso eguaglia il campionamento CoT completo utilizzando un numero drasticamente inferiore di token. Basandoci su questa intuizione, introduciamo il Campionamento Frammentato (Fractured Sampling), una strategia unificata al momento dell'inferenza che interpola tra il CoT completo e il campionamento della sola soluzione lungo tre assi ortogonali: (1) il numero di traiettorie di ragionamento, (2) il numero di soluzioni finali per traiettoria e (3) la profondità a cui le tracce di ragionamento vengono troncate. Attraverso esperimenti estesi su cinque benchmark di ragionamento diversi e diverse scale di modelli, dimostriamo che il Campionamento Frammentato raggiunge costantemente migliori compromessi tra accuratezza e costo, producendo guadagni di ridimensionamento log-lineare significativi in Pass@k rispetto al budget di token. La nostra analisi rivela come allocare il calcolo tra queste dimensioni per massimizzare le prestazioni, aprendo la strada a un ragionamento LLM più efficiente e scalabile.
English
Inference-time scaling techniques have significantly bolstered the reasoning capabilities of large language models (LLMs) by harnessing additional computational effort at inference without retraining. Similarly, Chain-of-Thought (CoT) prompting and its extension, Long CoT, improve accuracy by generating rich intermediate reasoning trajectories, but these approaches incur substantial token costs that impede their deployment in latency-sensitive settings. In this work, we first show that truncated CoT, which stops reasoning before completion and directly generates the final answer, often matches full CoT sampling while using dramatically fewer tokens. Building on this insight, we introduce Fractured Sampling, a unified inference-time strategy that interpolates between full CoT and solution-only sampling along three orthogonal axes: (1) the number of reasoning trajectories, (2) the number of final solutions per trajectory, and (3) the depth at which reasoning traces are truncated. Through extensive experiments on five diverse reasoning benchmarks and several model scales, we demonstrate that Fractured Sampling consistently achieves superior accuracy-cost trade-offs, yielding steep log-linear scaling gains in Pass@k versus token budget. Our analysis reveals how to allocate computation across these dimensions to maximize performance, paving the way for more efficient and scalable LLM reasoning.
PDF222May 20, 2025