ThreadWeaver: Адаптивное распределение потоков для эффективного параллельного рассуждения в языковых моделях
ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models
November 24, 2025
Авторы: Long Lian, Sida Wang, Felix Juefei-Xu, Tsu-Jui Fu, Xiuyu Li, Adam Yala, Trevor Darrell, Alane Suhr, Yuandong Tian, Xi Victoria Lin
cs.AI
Аннотация
Масштабирование вычислений на этапе вывода позволило большим языковым моделям (LLM) достичь высоких показателей в рассуждениях, однако изначально последовательный характер декодирования приводит к значительным задержкам, особенно при решении сложных задач. Современные исследования в области адаптивного параллельного рассуждения направлены на повышение эффективности вывода за счет декомпозиции процесса решения проблемы на параллельные потоки рассуждений, когда это целесообразно. Однако существующие методы для реалистичных задач либо ограничиваются обучением с подкреплением на основе поведенческого клонирования, либо демонстрируют значительное падение точности по сравнению с широко используемыми последовательными базовыми подходами типа длинной цепочки мыслей (CoT). Кроме того, многие из них требуют использования специализированных механизмов вывода, что усложняет развертывание. Мы представляем ThreadWeaver — фреймворк для адаптивного параллельного рассуждения, который обеспечивает точность на уровне популярных последовательных моделей рассуждений сопоставимого размера, при этом значительно сокращая задержку вывода. Производительность ThreadWeaver обусловлена тремя ключевыми инновациями: 1) двухэтапный генератор параллельных траекторий, который создает масштабируемые высококачественные данные CoT с параллельной разметкой для контролируемой тонкой настройки; 2) совместная разработка обучения и вывода на основе префиксного дерева (trie), которая позволяет осуществлять параллельное рассуждение на любом стандартном авторегрессионном механизме вывода без модификации позиционных эмбеддингов или KV-кэшей; и 3) фреймворк обучения с подкреплением, учитывающий параллелизацию, который учит модель балансировать между точностью и эффективностью распараллеливания. На шести сложных benchmarks математических рассуждений ThreadWeaver, дообученный на основе Qwen3-8B, демонстрирует точность, сопоставимую с передовыми последовательными моделями рассуждений (в среднем 71.9% и 79.9% на AIME24), обеспечивая при этом до 1.53x ускорение средней задержки на токен, что устанавливает новый парето-фронтир между точностью и эффективностью.
English
Scaling inference-time computation has enabled Large Language Models (LLMs) to achieve strong reasoning performance, but inherently sequential decoding leads to substantial latency, especially on complex tasks. Recent work on adaptive parallel reasoning aims to improve inference efficiency by decomposing the problem-solving process into concurrent reasoning threads when beneficial. However, existing methods on realistic tasks are either limited to supervised behavior cloning or exhibit significant accuracy drops compared to widely-used sequential long chain-of-thought (CoT) baselines. Moreover, many require customized inference engines, complicating deployment. We introduce ThreadWeaver, a framework for adaptive parallel reasoning that achieves accuracy on par with popular sequential reasoning models of comparable size while significantly reducing inference latency. ThreadWeaver's performance stems from three key innovations: 1) a two-stage parallel trajectory generator that produces large-scale, high-quality CoT data with parallel annotations for supervised fine-tuning; 2) a trie-based training-inference co-design that enables parallel reasoning on any off-the-shelf autoregressive inference engine without modifying position embeddings or KV caches; and 3) a parallelization-aware reinforcement learning framework that teaches the model to balance accuracy with effective parallelization. Across six challenging mathematical reasoning benchmarks, ThreadWeaver trained atop Qwen3-8B achieves accuracy comparable to cutting-edge sequential reasoning models (71.9% on average and 79.9% on AIME24) while delivering up to 1.53x average speedup in token latency, establishing a new Pareto frontier between accuracy and efficiency.