ThreadWeaver: Adaptives Threading für effizientes paralleles Reasoning in Sprachmodellen

papers.abstract

Die Skalierung von Inferenzrechenleistung hat großen Sprachmodellen (LLMs) starke Reasoning-Fähigkeiten ermöglicht, doch inhärent sequenzielles Decoding führt zu erheblicher Latenz, insbesondere bei komplexen Aufgaben. Jüngste Arbeiten zum adaptiven parallelen Reasoning zielen darauf ab, die Inferenzeffizienz zu verbessern, indem der Problemlösungsprozess bei Bedarf in parallele Reasoning-Threads zerlegt wird. Bestehende Methoden für realistische Aufgaben sind jedoch entweder auf überwachtes Behavior Cloning beschränkt oder weisen im Vergleich zu weit verbreiteten sequenziellen Chain-of-Thought (CoT)-Baselines signifikante Genauigkeitseinbußen auf. Zudem erfordern viele angepasste Inferenz-Engines, was die Bereitstellung erschwert. Wir stellen ThreadWeaver vor, ein Framework für adaptives paralleles Reasoning, das eine mit populären sequenziellen Reasoning-Modellen vergleichbarer Größe gleichwertige Genauigkeit erreicht und gleichzeitig die Inferenzlatenz deutlich reduziert. Die Leistung von ThreadWeaver basiert auf drei Schlüsselinnovationen: 1) einem zweistufigen parallelen Trajektoriengenerator, der großvolumige, hochwertige CoT-Daten mit Parallel-Annotationen für supervised Fine-Tuning erzeugt; 2) einem trie-basierten Trainings-Inferenz-Co-Design, das paralleles Reasoning auf jeder Standard-Autoregressions-Inferenzengine ohne Modifikation von Positional Embeddings oder KV-Caches ermöglicht; und 3) einem parallelisierungsbewussten Reinforcement-Learning-Framework, das dem Modell beibringt, Genauigkeit mit effektiver Parallelisierung abzuwägen. In sechs anspruchsvollen mathematischen Reasoning-Benchmarks erreicht ThreadWeaver auf Basis von Qwen3-8B eine mit state-of-the-art sequenziellen Reasoning-Modellen vergleichbare Genauigkeit (71,9 % im Durchschnitt und 79,9 % auf AIME24) bei gleichzeitig bis zu 1,53-facher durchschnittlicher Beschleunigung der Token-Latenz und etabliert damit eine neue Pareto-Grenze zwischen Genauigkeit und Effizienz.

English

Scaling inference-time computation has enabled Large Language Models (LLMs) to achieve strong reasoning performance, but inherently sequential decoding leads to substantial latency, especially on complex tasks. Recent work on adaptive parallel reasoning aims to improve inference efficiency by decomposing the problem-solving process into concurrent reasoning threads when beneficial. However, existing methods on realistic tasks are either limited to supervised behavior cloning or exhibit significant accuracy drops compared to widely-used sequential long chain-of-thought (CoT) baselines. Moreover, many require customized inference engines, complicating deployment. We introduce ThreadWeaver, a framework for adaptive parallel reasoning that achieves accuracy on par with popular sequential reasoning models of comparable size while significantly reducing inference latency. ThreadWeaver's performance stems from three key innovations: 1) a two-stage parallel trajectory generator that produces large-scale, high-quality CoT data with parallel annotations for supervised fine-tuning; 2) a trie-based training-inference co-design that enables parallel reasoning on any off-the-shelf autoregressive inference engine without modifying position embeddings or KV caches; and 3) a parallelization-aware reinforcement learning framework that teaches the model to balance accuracy with effective parallelization. Across six challenging mathematical reasoning benchmarks, ThreadWeaver trained atop Qwen3-8B achieves accuracy comparable to cutting-edge sequential reasoning models (71.9% on average and 79.9% on AIME24) while delivering up to 1.53x average speedup in token latency, establishing a new Pareto frontier between accuracy and efficiency.

ThreadWeaver: Adaptives Threading für effizientes paralleles Reasoning in Sprachmodellen

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

papers.abstract

Support