Gefragmenteerde Ketting-van-Gedachten Redenering
Fractured Chain-of-Thought Reasoning
May 19, 2025
Auteurs: Baohao Liao, Hanze Dong, Yuhui Xu, Doyen Sahoo, Christof Monz, Junnan Li, Caiming Xiong
cs.AI
Samenvatting
Inferentie-schaaltechnieken hebben de redeneercapaciteiten van grote taalmmodellen (LLM's) aanzienlijk versterkt door extra rekenkracht te benutten tijdens de inferentie zonder hertraining. Evenzo verbeteren Chain-of-Thought (CoT) prompting en de uitbreiding daarvan, Long CoT, de nauwkeurigheid door rijke tussenliggende redeneertrajecten te genereren, maar deze methoden brengen aanzienlijke tokenkosten met zich mee die hun inzet in latentiegevoelige omgevingen belemmeren. In dit werk tonen we eerst aan dat afgekapte CoT, waarbij het redeneren voortijdig wordt gestopt en direct het eindantwoord wordt gegenereerd, vaak overeenkomt met volledige CoT-steekproeven terwijl aanzienlijk minder tokens worden gebruikt. Op basis van dit inzicht introduceren we Fractured Sampling, een uniforme inferentie-strategie die interpoleert tussen volledige CoT en oplossingsgerichte steekproeven langs drie orthogonale assen: (1) het aantal redeneertrajecten, (2) het aantal eindoplossingen per traject, en (3) de diepte waarop redeneersporen worden afgekapt. Door uitgebreide experimenten op vijf diverse redeneerbenchmarks en verschillende modelschalen, tonen we aan dat Fractured Sampling consequent superieure nauwkeurigheid-kostenverhoudingen bereikt, wat leidt tot sterke log-lineaire schaalwinsten in Pass@k versus tokenbudget. Onze analyse onthult hoe rekenkracht over deze dimensies kan worden toegewezen om de prestaties te maximaliseren, wat de weg vrijmaakt voor efficiëntere en schaalbaardere LLM-redenering.
English
Inference-time scaling techniques have significantly bolstered the reasoning
capabilities of large language models (LLMs) by harnessing additional
computational effort at inference without retraining. Similarly,
Chain-of-Thought (CoT) prompting and its extension, Long CoT, improve accuracy
by generating rich intermediate reasoning trajectories, but these approaches
incur substantial token costs that impede their deployment in latency-sensitive
settings. In this work, we first show that truncated CoT, which stops reasoning
before completion and directly generates the final answer, often matches full
CoT sampling while using dramatically fewer tokens. Building on this insight,
we introduce Fractured Sampling, a unified inference-time strategy that
interpolates between full CoT and solution-only sampling along three orthogonal
axes: (1) the number of reasoning trajectories, (2) the number of final
solutions per trajectory, and (3) the depth at which reasoning traces are
truncated. Through extensive experiments on five diverse reasoning benchmarks
and several model scales, we demonstrate that Fractured Sampling consistently
achieves superior accuracy-cost trade-offs, yielding steep log-linear scaling
gains in Pass@k versus token budget. Our analysis reveals how to allocate
computation across these dimensions to maximize performance, paving the way for
more efficient and scalable LLM reasoning.Summary
AI-Generated Summary