MatchTIR: Fein abgestufte Überwachung für werkzeugintegriertes Reasoning mittels bipartitem Matching
MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching
January 15, 2026
papers.authors: Changle Qu, Sunhao Dai, Hengyi Cai, Jun Xu, Shuaiqiang Wang, Dawei Yin
cs.AI
papers.abstract
Tool-Integrated Reasoning (TIR) befähigt große Sprachmodelle (LLMs), komplexe Aufgaben zu bewältigen, indem Denkschritte mit externen Werkzeuginteraktionen verschachtelt werden. Bisherige Verstärkungslernverfahren stützen sich jedoch typischerweise auf Ergebnis- oder Trajektorien-basierte Belohnungen, die allen Schritten innerhalb einer Trajektorie einheitliche Vorteile zuweisen. Diese grobgranulare Gutschriftzuweisung kann effektive Werkzeugaufrufe nicht von redundanten oder fehlerhaften unterscheiden, insbesondere in langfristigen, mehrstufigen Szenarien. Um dieses Problem zu lösen, schlagen wir MatchTIR vor, ein Framework, das feingranulare Überwachung durch bipartite, matching-basierte Belohnungszuweisung auf Turn-Ebene und duale Vorteilsschätzung einführt. Konkret formulieren wir die Gutschriftzuweisung als bipartites Matching-Problem zwischen vorhergesagten und Ground-Truth-Abläufen und nutzen zwei Zuordnungsstrategien, um dichte Belohnungen auf Turn-Ebene abzuleiten. Darüber hinaus führen wir ein duales Vorteilsschätzverfahren ein, das lokale Schritttreue mit globalem Aufgaben-erfolg abwägt, indem es Turn- und Trajektorien-basierte Signale integriert und einzelnen Interaktionsrunden distincte Vorteilswerte zuweist. Umfangreiche Experimente mit drei Benchmarks demonstrieren die Überlegenheit von MatchTIR. Bemerkenswerterweise übertrifft unser 4B-Modell die Mehrheit der 8B-Konkurrenten, insbesondere bei langfristigen und mehrstufigen Aufgaben. Unsere Codes sind verfügbar unter https://github.com/quchangle1/MatchTIR.
English
Tool-Integrated Reasoning (TIR) empowers large language models (LLMs) to tackle complex tasks by interleaving reasoning steps with external tool interactions. However, existing reinforcement learning methods typically rely on outcome- or trajectory-level rewards, assigning uniform advantages to all steps within a trajectory. This coarse-grained credit assignment fails to distinguish effective tool calls from redundant or erroneous ones, particularly in long-horizon multi-turn scenarios. To address this, we propose MatchTIR, a framework that introduces fine-grained supervision via bipartite matching-based turn-level reward assignment and dual-level advantage estimation. Specifically, we formulate credit assignment as a bipartite matching problem between predicted and ground-truth traces, utilizing two assignment strategies to derive dense turn-level rewards. Furthermore, to balance local step precision with global task success, we introduce a dual-level advantage estimation scheme that integrates turn-level and trajectory-level signals, assigning distinct advantage values to individual interaction turns. Extensive experiments on three benchmarks demonstrate the superiority of MatchTIR. Notably, our 4B model surpasses the majority of 8B competitors, particularly in long-horizon and multi-turn tasks. Our codes are available at https://github.com/quchangle1/MatchTIR.