Gebrochene Kettenlogik-Argumentation
Fractured Chain-of-Thought Reasoning
May 19, 2025
Autoren: Baohao Liao, Hanze Dong, Yuhui Xu, Doyen Sahoo, Christof Monz, Junnan Li, Caiming Xiong
cs.AI
Zusammenfassung
Inferenzzeit-Skalierungstechniken haben die Fähigkeiten großer Sprachmodelle (LLMs) zur logischen Schlussfolgerung erheblich gestärkt, indem sie zusätzliche Rechenleistung während der Inferenz nutzen, ohne dass ein erneutes Training erforderlich ist. In ähnlicher Weise verbessern Chain-of-Thought (CoT)-Prompting und seine Erweiterung, Long CoT, die Genauigkeit durch die Erzeugung umfangreicher Zwischenpfade der logischen Schlussfolgerung. Diese Ansätze verursachen jedoch erhebliche Token-Kosten, die ihren Einsatz in latenzsensiblen Umgebungen behindern. In dieser Arbeit zeigen wir zunächst, dass abgeschnittenes CoT, das die Schlussfolgerung vor dem Abschluss beendet und direkt die endgültige Antwort generiert, oft dem vollständigen CoT-Sampling entspricht, dabei jedoch deutlich weniger Token verwendet. Aufbauend auf dieser Erkenntnis führen wir Fractured Sampling ein, eine einheitliche Inferenzzeit-Strategie, die zwischen vollständigem CoT und ausschließlichem Lösungs-Sampling entlang drei orthogonaler Achsen interpoliert: (1) die Anzahl der Schlussfolgerungspfade, (2) die Anzahl der endgültigen Lösungen pro Pfad und (3) die Tiefe, bei der die Schlussfolgerungsspuren abgeschnitten werden. Durch umfangreiche Experimente mit fünf verschiedenen logischen Benchmark-Tests und mehreren Modellgrößen demonstrieren wir, dass Fractured Sampling durchweg überlegene Genauigkeits-Kosten-Kompromisse erzielt und dabei deutliche log-lineare Skalierungsgewinne in Pass@k im Vergleich zum Token-Budget erzielt. Unsere Analyse zeigt, wie die Rechenleistung über diese Dimensionen verteilt werden kann, um die Leistung zu maximieren, und ebnet den Weg für effizienteres und skalierbareres LLM-Schlussfolgern.
English
Inference-time scaling techniques have significantly bolstered the reasoning
capabilities of large language models (LLMs) by harnessing additional
computational effort at inference without retraining. Similarly,
Chain-of-Thought (CoT) prompting and its extension, Long CoT, improve accuracy
by generating rich intermediate reasoning trajectories, but these approaches
incur substantial token costs that impede their deployment in latency-sensitive
settings. In this work, we first show that truncated CoT, which stops reasoning
before completion and directly generates the final answer, often matches full
CoT sampling while using dramatically fewer tokens. Building on this insight,
we introduce Fractured Sampling, a unified inference-time strategy that
interpolates between full CoT and solution-only sampling along three orthogonal
axes: (1) the number of reasoning trajectories, (2) the number of final
solutions per trajectory, and (3) the depth at which reasoning traces are
truncated. Through extensive experiments on five diverse reasoning benchmarks
and several model scales, we demonstrate that Fractured Sampling consistently
achieves superior accuracy-cost trade-offs, yielding steep log-linear scaling
gains in Pass@k versus token budget. Our analysis reveals how to allocate
computation across these dimensions to maximize performance, paving the way for
more efficient and scalable LLM reasoning.Summary
AI-Generated Summary