ChatPaper.aiChatPaper

AdaSR: 階層的相対方策最適化を用いた適応的ストリーミング推論

AdaSR: Adaptive Streaming Reasoning with Hierarchical Relative Policy Optimization

June 12, 2026
著者: Junlong Tong, Wenqi Xu, Yingqi Fan, Anhao Zhao, Xuan Lu, Yang Tan, Xiaoyu Shen
cs.AI

要旨

大規模推論モデルは通常、読み取り→思考パラダイムに従う。すなわち、完全な入力を観測し、静的な文脈に基づいて推論を行い、その後回答を生成する。しかし、現実の多くのシナリオは本質的に動的であり、例えば音声や動画のストリームのように、情報が連続的に到着し、モデルは部分観測のもとで推論、更新、応答を行う必要がある。最近のストリーミング推論手法では、モデルが読み取りながら思考することが可能になったが、それらは主に事前構築された軌跡の教師あり模倣に依存しており、柔軟性が制限される。本稿では、適応的ストリーミング推論フレームワークAdaSRを提案する。これは、モデルが入力ストリーミング中に推論を行い、ストリームが完了した後に最終的な熟考を行うことを可能にし、いつ思考すべきか、各段階にどれだけの計算を割り当てるべきかを学習する。この階層的推論プロセスを最適化するために、階層的相対方策最適化(HRPO)を導入する。HRPOは方策最適化をストリーミング推論フェーズと深層推論フェーズに分解し、シーケンスレベルの単一のアドバンテージを全トークンに均一に分配するのではなく、より細粒度のアドバンテージ割り当てを提供する。HRPOは、形式報酬、正確性報酬、適応的思考報酬を統合することで、有効な推論プロトコルを強制し、最終タスク性能を維持し、レイテンシを考慮した計算割り当てを促進する。実験により、AdaSRは教師ありファインチューニングのベースラインと比較して、推論精度、計算効率、ストリーミングレイテンシの間でより良いバランスを達成することが示された。コードはhttps://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSRで公開している。
English
Large reasoning models typically follow a read-then-think paradigm: they observe the complete input, reason over a static context, and then produce the answer. Yet many real-world scenarios are inherently dynamic, such as audio and video stream, where information arrives as a continuous stream and models must reason, update, and respond under partial observations. Recent streaming reasoning methods allow models to think while reading, but they largely rely on supervised imitation of pre-constructed trajectories, which limits their flexibility. In this paper, we propose AdaSR, an adaptive streaming reasoning framework that enables models to reason during input streaming and perform final deliberation once the stream is complete, learning when to think, and how much computation to allocate across different stages. To optimize this hierarchical reasoning process, we introduce Hierarchical Relative Policy Optimization (HRPO), which decomposes policy optimization into streaming reasoning and deep reasoning phases, providing more fine-grained advantage assignment instead of uniformly distributing a single sequence-level advantage over all tokens. HRPO integrates format, accuracy, and adaptive thinking rewards to enforce valid reasoning protocols, preserve final task performance, and encourage latency-aware computation allocation. Experiments show that AdaSR achieves a better balance among reasoning accuracy, computational efficiency, and streaming latency compared with supervised fine-tuning baseline. We release our code at https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR.