ChatPaper.aiChatPaper

MatchTIR: Supervisión de Grano Fino para el Razonamiento con Herramientas Integradas mediante Emparejamiento Bipartito

MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching

January 15, 2026
Autores: Changle Qu, Sunhao Dai, Hengyi Cai, Jun Xu, Shuaiqiang Wang, Dawei Yin
cs.AI

Resumen

El Razonamiento Integrado con Herramientas (TIR) capacita a los grandes modelos de lenguaje (LLM) para abordar tareas complejas intercalando pasos de razonamiento con interacciones de herramientas externas. Sin embargo, los métodos de aprendizaje por refuerzo existentes suelen depender de recompensas a nivel de resultado o de trayectoria, asignando ventajas uniformes a todos los pasos dentro de una trayectoria. Esta asignación de crédito de grano grueso no logra distinguir las llamadas a herramientas efectivas de las redundantes o erróneas, especialmente en escenarios multi-turno de horizonte largo. Para abordar esto, proponemos MatchTIR, un marco que introduce una supervisión de grano fino mediante la asignación de recompensas a nivel de turno basada en emparejamiento bipartito y una estimación de ventaja de doble nivel. Específicamente, formulamos la asignación de crédito como un problema de emparejamiento bipartito entre trazas predichas y reales, utilizando dos estrategias de asignación para derivar recompensas densas a nivel de turno. Además, para equilibrar la precisión local de los pasos con el éxito global de la tarea, introducimos un esquema de estimación de ventaja de doble nivel que integra señales a nivel de turno y de trayectoria, asignando valores de ventaja distintos a turnos de interacción individuales. Experimentos exhaustivos en tres benchmarks demuestran la superioridad de MatchTIR. Notablemente, nuestro modelo de 4B supera a la mayoría de los competidores de 8B, particularmente en tareas multi-turno y de horizonte largo. Nuestros códigos están disponibles en https://github.com/quchangle1/MatchTIR.
English
Tool-Integrated Reasoning (TIR) empowers large language models (LLMs) to tackle complex tasks by interleaving reasoning steps with external tool interactions. However, existing reinforcement learning methods typically rely on outcome- or trajectory-level rewards, assigning uniform advantages to all steps within a trajectory. This coarse-grained credit assignment fails to distinguish effective tool calls from redundant or erroneous ones, particularly in long-horizon multi-turn scenarios. To address this, we propose MatchTIR, a framework that introduces fine-grained supervision via bipartite matching-based turn-level reward assignment and dual-level advantage estimation. Specifically, we formulate credit assignment as a bipartite matching problem between predicted and ground-truth traces, utilizing two assignment strategies to derive dense turn-level rewards. Furthermore, to balance local step precision with global task success, we introduce a dual-level advantage estimation scheme that integrates turn-level and trajectory-level signals, assigning distinct advantage values to individual interaction turns. Extensive experiments on three benchmarks demonstrate the superiority of MatchTIR. Notably, our 4B model surpasses the majority of 8B competitors, particularly in long-horizon and multi-turn tasks. Our codes are available at https://github.com/quchangle1/MatchTIR.
PDF181January 17, 2026