ChatPaper.aiChatPaper

MatchTIR: 二部マッチングによるツール統合推論のための細粒度教師信号

MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching

January 15, 2026
著者: Changle Qu, Sunhao Dai, Hengyi Cai, Jun Xu, Shuaiqiang Wang, Dawei Yin
cs.AI

要旨

ツール統合推論(TIR)は、大規模言語モデル(LLM)が推論ステップと外部ツールとの相互作用を交互に行うことで、複雑なタスクに取り組むことを可能にする。しかし、既存の強化学習手法は一般に、結果ベースまたは軌跡レベルの報酬に依存し、軌跡内の全てのステップに均一なアドバンテージを割り当てる傾向がある。この粗い粒度の信用割り当ては、特に長期的で多段階のシナリオにおいて、効果的なツール呼び出しと冗長あるいは誤った呼び出しとを区別することができない。この問題に対処するため、我々はMatchTIRを提案する。これは、二部マッチングに基づくターンレベル報酬割り当てと二重レベルアドバンテージ推定による、細粒度の監督を導入するフレームワークである。具体的には、信用割り当てを、予測されたトレースと真のトレースとの間の二部マッチング問題として定式化し、二つの割り当て戦略を用いて密なターンレベル報酬を導出する。さらに、局所的なステップの精度と大域的なタスク成功のバランスを取るため、ターンレベルと軌跡レベルの信号を統合し、個々の相互作用ターンに異なるアドバンテージ値を割り当てる二重レベルアドバンテージ推定スキームを導入する。3つのベンチマークにおける大規模な実験により、MatchTIRの優位性が実証された。特に、我々の40億パラメータモデルは、大半の80億パラメータ競合モデルを凌駕し、長期的かつ多段階のタスクにおいてその有効性が顕著に現れた。コードはhttps://github.com/quchangle1/MatchTIR で公開されている。
English
Tool-Integrated Reasoning (TIR) empowers large language models (LLMs) to tackle complex tasks by interleaving reasoning steps with external tool interactions. However, existing reinforcement learning methods typically rely on outcome- or trajectory-level rewards, assigning uniform advantages to all steps within a trajectory. This coarse-grained credit assignment fails to distinguish effective tool calls from redundant or erroneous ones, particularly in long-horizon multi-turn scenarios. To address this, we propose MatchTIR, a framework that introduces fine-grained supervision via bipartite matching-based turn-level reward assignment and dual-level advantage estimation. Specifically, we formulate credit assignment as a bipartite matching problem between predicted and ground-truth traces, utilizing two assignment strategies to derive dense turn-level rewards. Furthermore, to balance local step precision with global task success, we introduce a dual-level advantage estimation scheme that integrates turn-level and trajectory-level signals, assigning distinct advantage values to individual interaction turns. Extensive experiments on three benchmarks demonstrate the superiority of MatchTIR. Notably, our 4B model surpasses the majority of 8B competitors, particularly in long-horizon and multi-turn tasks. Our codes are available at https://github.com/quchangle1/MatchTIR.
PDF181January 17, 2026