言語モデルを用いた適応的並列推論の学習
Learning Adaptive Parallel Reasoning with Language Models
April 21, 2025
著者: Jiayi Pan, Xiuyu Li, Long Lian, Charlie Snell, Yifei Zhou, Adam Yala, Trevor Darrell, Kurt Keutzer, Alane Suhr
cs.AI
要旨
推論時の計算スケーリングは、言語モデルの推論能力を大幅に向上させてきました。しかし、既存の手法には重大な制限があります。シリアル化された連鎖思考(chain-of-thought)アプローチは出力が過度に長くなり、レイテンシの増加やコンテキストウィンドウの枯渇を招きます。一方、自己整合性(self-consistency)のような並列手法では、十分な調整が行われず、冗長な計算や限定的な性能向上に留まります。これらの欠点を解決するため、我々はAdaptive Parallel Reasoning(APR)を提案します。APRは、言語モデルがシリアル化された計算と並列計算をエンドツーエンドで調整することを可能にする新しい推論フレームワークです。APRは、spawn()およびjoin()操作を使用した適応型マルチスレッド推論を可能にすることで、既存の推論手法を一般化します。重要な革新点は、事前に定義された推論構造を必要とせず、親スレッドと子スレッドの推論を最適化してタスクの成功率を向上させるエンドツーエンドの強化学習戦略です。Countdown推論タスクでの実験により、APRの重要な利点が示されました:(1)同じコンテキストウィンドウ内での高い性能(4kコンテキストで83.4% vs. 60.0%);(2)計算量の増加に伴う優れたスケーラビリティ(20kトークンで80.1% vs. 66.6%);(3)同等のレイテンシでの精度向上(約5,000msで75.2% vs. 57.3%)。APRは、言語モデルが計算の適応的割り当てを通じて推論プロセスを自律的に最適化するための一歩を表しています。
English
Scaling inference-time computation has substantially improved the reasoning
capabilities of language models. However, existing methods have significant
limitations: serialized chain-of-thought approaches generate overly long
outputs, leading to increased latency and exhausted context windows, while
parallel methods such as self-consistency suffer from insufficient
coordination, resulting in redundant computations and limited performance
gains. To address these shortcomings, we propose Adaptive Parallel Reasoning
(APR), a novel reasoning framework that enables language models to orchestrate
both serialized and parallel computations end-to-end. APR generalizes existing
reasoning methods by enabling adaptive multi-threaded inference using spawn()
and join() operations. A key innovation is our end-to-end reinforcement
learning strategy, optimizing both parent and child inference threads to
enhance task success rate without requiring predefined reasoning structures.
Experiments on the Countdown reasoning task demonstrate significant benefits of
APR: (1) higher performance within the same context window (83.4% vs. 60.0% at
4k context); (2) superior scalability with increased computation (80.1% vs.
66.6% at 20k total tokens); (3) improved accuracy at equivalent latency (75.2%
vs. 57.3% at approximately 5,000ms). APR represents a step towards enabling
language models to autonomously optimize their reasoning processes through
adaptive allocation of computation.Summary
AI-Generated Summary