MatchTIR : Supervision fine du raisonnement intégrant des outils par appariement bipartite
MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching
January 15, 2026
papers.authors: Changle Qu, Sunhao Dai, Hengyi Cai, Jun Xu, Shuaiqiang Wang, Dawei Yin
cs.AI
papers.abstract
Le raisonnement intégrant des outils (TIR) permet aux grands modèles de langage (LLM) de résoudre des tâches complexes en entrelaçant des étapes de raisonnement avec des interactions d'outils externes. Cependant, les méthodes existantes d'apprentissage par renforcement reposent généralement sur des récompenses au niveau des résultats ou des trajectoires, attribuant des avantages uniformes à toutes les étapes d'une trajectoire. Cette attribution de crédit à granularité grossière ne parvient pas à distinguer les appels d'outils efficaces de ceux redondants ou erronés, particulièrement dans les scénarios multi-tours à long horizon. Pour résoudre ce problème, nous proposons MatchTIR, un cadre introduisant une supervision fine via une attribution de récompense au niveau du tour basée sur l'appariement biparti et une estimation d'avantage à double niveau. Plus précisément, nous formulons l'attribution de crédit comme un problème d'appariement bipartite entre les traces prédites et les traces de vérité terrain, en utilisant deux stratégies d'attribution pour obtenir des récompenses denses au niveau du tour. De plus, pour équilibrer la précision des étapes locales avec la réussite globale de la tâche, nous introduisons un schéma d'estimation d'avantage à double niveau qui intègre les signaux au niveau du tour et de la trajectoire, attribuant des valeurs d'avantage distinctes à chaque tour d'interaction. Des expériences approfondies sur trois benchmarks démontrent la supériorité de MatchTIR. Notamment, notre modèle de 4B surpasse la majorité des concurrents de 8B, particulièrement dans les tâches à long horizon et multi-tours. Nos codes sont disponibles à l'adresse https://github.com/quchangle1/MatchTIR.
English
Tool-Integrated Reasoning (TIR) empowers large language models (LLMs) to tackle complex tasks by interleaving reasoning steps with external tool interactions. However, existing reinforcement learning methods typically rely on outcome- or trajectory-level rewards, assigning uniform advantages to all steps within a trajectory. This coarse-grained credit assignment fails to distinguish effective tool calls from redundant or erroneous ones, particularly in long-horizon multi-turn scenarios. To address this, we propose MatchTIR, a framework that introduces fine-grained supervision via bipartite matching-based turn-level reward assignment and dual-level advantage estimation. Specifically, we formulate credit assignment as a bipartite matching problem between predicted and ground-truth traces, utilizing two assignment strategies to derive dense turn-level rewards. Furthermore, to balance local step precision with global task success, we introduce a dual-level advantage estimation scheme that integrates turn-level and trajectory-level signals, assigning distinct advantage values to individual interaction turns. Extensive experiments on three benchmarks demonstrate the superiority of MatchTIR. Notably, our 4B model surpasses the majority of 8B competitors, particularly in long-horizon and multi-turn tasks. Our codes are available at https://github.com/quchangle1/MatchTIR.