ChatPaper.aiChatPaper

MatchTIR: Тонкоструктурированное управление инструментальным рассуждением через бипартитное соответствие

MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching

January 15, 2026
Авторы: Changle Qu, Sunhao Dai, Hengyi Cai, Jun Xu, Shuaiqiang Wang, Dawei Yin
cs.AI

Аннотация

Метод инструментально-интегрированного рассуждения (Tool-Integrated Reasoning, TIR) позволяет большим языковым моделям (LLM) решать сложные задачи, чередуя шаги рассуждений с обращениями к внешним инструментам. Однако существующие методы обучения с подкреплением обычно опираются на награды на уровне результата или траектории, присваивая одинаковые преимущества всем шагам внутри траектории. Такое грубое распределение заслуг не позволяет отличить эффективные вызовы инструментов от избыточных или ошибочных, особенно в сценариях с длительным горизонтом планирования и множественными взаимодействиями. Для решения этой проблемы мы предлагаем фреймворк MatchTIR, который вводит детализированный контроль посредством распределения наград на уровне хода на основе двудольного соответствия и двухуровневой оценки преимуществ. В частности, мы формулируем распределение заслуг как задачу о двудольном соответствии между предсказанными и эталонными трассировками, используя две стратегии назначения для получения плотных наград на уровне хода. Кроме того, для балансировки локальной точности шагов и глобального успеха задачи мы вводим схему двухуровневой оценки преимуществ, которая интегрирует сигналы уровня хода и уровня траектории, присваивая различные значения преимуществ отдельным шагам взаимодействия. Многочисленные эксперименты на трех тестовых наборах демонстрируют превосходство MatchTIR. Примечательно, что наша модель объемом 4B превосходит большинство конкурентов с 8B параметрами, особенно в задачах с длительным горизонтом и множественными взаимодействиями. Наш код доступен по адресу https://github.com/quchangle1/MatchTIR.
English
Tool-Integrated Reasoning (TIR) empowers large language models (LLMs) to tackle complex tasks by interleaving reasoning steps with external tool interactions. However, existing reinforcement learning methods typically rely on outcome- or trajectory-level rewards, assigning uniform advantages to all steps within a trajectory. This coarse-grained credit assignment fails to distinguish effective tool calls from redundant or erroneous ones, particularly in long-horizon multi-turn scenarios. To address this, we propose MatchTIR, a framework that introduces fine-grained supervision via bipartite matching-based turn-level reward assignment and dual-level advantage estimation. Specifically, we formulate credit assignment as a bipartite matching problem between predicted and ground-truth traces, utilizing two assignment strategies to derive dense turn-level rewards. Furthermore, to balance local step precision with global task success, we introduce a dual-level advantage estimation scheme that integrates turn-level and trajectory-level signals, assigning distinct advantage values to individual interaction turns. Extensive experiments on three benchmarks demonstrate the superiority of MatchTIR. Notably, our 4B model surpasses the majority of 8B competitors, particularly in long-horizon and multi-turn tasks. Our codes are available at https://github.com/quchangle1/MatchTIR.
PDF181January 17, 2026