MatchTIR: 이분 매칭을 통한 도구 통합 추론의 세분화된 지도 학습
MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching
January 15, 2026
저자: Changle Qu, Sunhao Dai, Hengyi Cai, Jun Xu, Shuaiqiang Wang, Dawei Yin
cs.AI
초록
도구 통합 추론(TIR)은 대규모 언어 모델(LLM)이 추론 단계와 외부 도구 상호작용을 교차하며 복잡한 작업을 해결할 수 있도록 지원합니다. 그러나 기존 강화 학습 방법은 일반적으로 결과 수준 또는 궤적 수준 보상에 의존하며, 궤적 내 모든 단계에 동일한 이점을 부여합니다. 이러한 거시적 수준의 기여도 할당은 특히 장기적·다중 회기 시나리오에서 효과적인 도구 호출과 중복 또는 오류가 있는 호출을 구분하지 못하는 한계가 있습니다. 이를 해결하기 위해 우리는 이분 매칭 기반 회기 수준 보상 할당과 이중 수준 이점 추정을 통한 정밀한 감독을 도입한 MatchTIR 프레임워크를 제안합니다. 구체적으로 예측된 실행 궤적과 실제 실행 궤적 간의 이분 매칭 문제로 기여도 할당을 공식화하며, 두 가지 할당 전략을 활용하여 밀집된 회기 수준 보상을 도출합니다. 더 나아가 지역적 단계 정밀도와 전역적 작업 성공 간의 균형을 위해 회기 수준과 궤적 수준 신호를 통합한 이중 수준 이점 추정 기법을 도입하여 개별 상호작용 회기에 서로 다른 이점 값을 할당합니다. 3개 벤치마크에서 진행한 폭넓은 실험을 통해 MatchTIR의 우수성을 입증했습니다. 특히 우리의 40억 파라미터 모델은 대부분의 80억 파라미터 경쟁 모델을 능가하며, 장기적·다중 회기 작업에서 두드러진 성능을 보였습니다. 코드는 https://github.com/quchangle1/MatchTIR에서 확인할 수 있습니다.
English
Tool-Integrated Reasoning (TIR) empowers large language models (LLMs) to tackle complex tasks by interleaving reasoning steps with external tool interactions. However, existing reinforcement learning methods typically rely on outcome- or trajectory-level rewards, assigning uniform advantages to all steps within a trajectory. This coarse-grained credit assignment fails to distinguish effective tool calls from redundant or erroneous ones, particularly in long-horizon multi-turn scenarios. To address this, we propose MatchTIR, a framework that introduces fine-grained supervision via bipartite matching-based turn-level reward assignment and dual-level advantage estimation. Specifically, we formulate credit assignment as a bipartite matching problem between predicted and ground-truth traces, utilizing two assignment strategies to derive dense turn-level rewards. Furthermore, to balance local step precision with global task success, we introduce a dual-level advantage estimation scheme that integrates turn-level and trajectory-level signals, assigning distinct advantage values to individual interaction turns. Extensive experiments on three benchmarks demonstrate the superiority of MatchTIR. Notably, our 4B model surpasses the majority of 8B competitors, particularly in long-horizon and multi-turn tasks. Our codes are available at https://github.com/quchangle1/MatchTIR.