MatchTIR: Supervisão de Alta Granularidade para Raciocínio com Integração de Ferramentas via Emparelhamento Bipartido

Resumo

O Raciocínio Integrado com Ferramentas (TIR) capacita os grandes modelos de linguagem (LLMs) a enfrentarem tarefas complexas intercalando etapas de raciocínio com interações de ferramentas externas. No entanto, os métodos existentes de aprendizagem por reforço geralmente dependem de recompensas a nível de resultado ou de trajetória, atribuindo vantagens uniformes a todas as etapas de uma trajetória. Esta atribuição de crédito de granularidade grossa não consegue distinguir chamadas de ferramentas eficazes das redundantes ou errôneas, particularmente em cenários de longo horizonte e múltiplos turnos. Para resolver isto, propomos o MatchTIR, uma estrutura que introduz supervisão de granularidade fina através da atribuição de recompensas a nível de turno baseada em correspondência bipartida e estimação de vantagem de duplo nível. Especificamente, formulamos a atribuição de crédito como um problema de correspondência bipartida entre traços previstos e traços de referência (ground-truth), utilizando duas estratégias de atribuição para derivar recompensas densas a nível de turno. Adicionalmente, para equilibrar a precisão a nível de etapa local com o sucesso global da tarefa, introduzimos um esquema de estimação de vantagem de duplo nível que integra sinais a nível de turno e de trajetória, atribuindo valores de vantagem distintos a turnos de interação individuais. Experiências extensas em três benchmarks demonstram a superioridade do MatchTIR. Notablemente, o nosso modelo de 4B supera a maioria dos concorrentes de 8B, particularmente em tarefas de longo horizonte e múltiplos turnos. Os nossos códigos estão disponíveis em https://github.com/quchangle1/MatchTIR.

English

Tool-Integrated Reasoning (TIR) empowers large language models (LLMs) to tackle complex tasks by interleaving reasoning steps with external tool interactions. However, existing reinforcement learning methods typically rely on outcome- or trajectory-level rewards, assigning uniform advantages to all steps within a trajectory. This coarse-grained credit assignment fails to distinguish effective tool calls from redundant or erroneous ones, particularly in long-horizon multi-turn scenarios. To address this, we propose MatchTIR, a framework that introduces fine-grained supervision via bipartite matching-based turn-level reward assignment and dual-level advantage estimation. Specifically, we formulate credit assignment as a bipartite matching problem between predicted and ground-truth traces, utilizing two assignment strategies to derive dense turn-level rewards. Furthermore, to balance local step precision with global task success, we introduce a dual-level advantage estimation scheme that integrates turn-level and trajectory-level signals, assigning distinct advantage values to individual interaction turns. Extensive experiments on three benchmarks demonstrate the superiority of MatchTIR. Notably, our 4B model surpasses the majority of 8B competitors, particularly in long-horizon and multi-turn tasks. Our codes are available at https://github.com/quchangle1/MatchTIR.

MatchTIR: Supervisão de Alta Granularidade para Raciocínio com Integração de Ferramentas via Emparelhamento Bipartido

MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching

Resumo

Support