Gefragmenteerde Ketting-van-Gedachten Redenering

Samenvatting

Inferentie-schaaltechnieken hebben de redeneercapaciteiten van grote taalmmodellen (LLM's) aanzienlijk versterkt door extra rekenkracht te benutten tijdens de inferentie zonder hertraining. Evenzo verbeteren Chain-of-Thought (CoT) prompting en de uitbreiding daarvan, Long CoT, de nauwkeurigheid door rijke tussenliggende redeneertrajecten te genereren, maar deze methoden brengen aanzienlijke tokenkosten met zich mee die hun inzet in latentiegevoelige omgevingen belemmeren. In dit werk tonen we eerst aan dat afgekapte CoT, waarbij het redeneren voortijdig wordt gestopt en direct het eindantwoord wordt gegenereerd, vaak overeenkomt met volledige CoT-steekproeven terwijl aanzienlijk minder tokens worden gebruikt. Op basis van dit inzicht introduceren we Fractured Sampling, een uniforme inferentie-strategie die interpoleert tussen volledige CoT en oplossingsgerichte steekproeven langs drie orthogonale assen: (1) het aantal redeneertrajecten, (2) het aantal eindoplossingen per traject, en (3) de diepte waarop redeneersporen worden afgekapt. Door uitgebreide experimenten op vijf diverse redeneerbenchmarks en verschillende modelschalen, tonen we aan dat Fractured Sampling consequent superieure nauwkeurigheid-kostenverhoudingen bereikt, wat leidt tot sterke log-lineaire schaalwinsten in Pass@k versus tokenbudget. Onze analyse onthult hoe rekenkracht over deze dimensies kan worden toegewezen om de prestaties te maximaliseren, wat de weg vrijmaakt voor efficiëntere en schaalbaardere LLM-redenering.

English

Inference-time scaling techniques have significantly bolstered the reasoning capabilities of large language models (LLMs) by harnessing additional computational effort at inference without retraining. Similarly, Chain-of-Thought (CoT) prompting and its extension, Long CoT, improve accuracy by generating rich intermediate reasoning trajectories, but these approaches incur substantial token costs that impede their deployment in latency-sensitive settings. In this work, we first show that truncated CoT, which stops reasoning before completion and directly generates the final answer, often matches full CoT sampling while using dramatically fewer tokens. Building on this insight, we introduce Fractured Sampling, a unified inference-time strategy that interpolates between full CoT and solution-only sampling along three orthogonal axes: (1) the number of reasoning trajectories, (2) the number of final solutions per trajectory, and (3) the depth at which reasoning traces are truncated. Through extensive experiments on five diverse reasoning benchmarks and several model scales, we demonstrate that Fractured Sampling consistently achieves superior accuracy-cost trade-offs, yielding steep log-linear scaling gains in Pass@k versus token budget. Our analysis reveals how to allocate computation across these dimensions to maximize performance, paving the way for more efficient and scalable LLM reasoning.

Gefragmenteerde Ketting-van-Gedachten Redenering

Fractured Chain-of-Thought Reasoning

Samenvatting

Summary

Support

Support