MatchTIR: Supervisione Fine-Grained per il Ragionamento con Strumenti Integrati tramite Accoppiamento Bipartito

Abstract

Il Ragionamento Integrato con Strumenti (TIR) consente ai grandi modelli linguistici (LLM) di affrontare compiti complessi intercalando passaggi di ragionamento con interazioni con strumenti esterni. Tuttavia, i metodi di apprendimento per rinforzo esistenti si basano tipicamente su ricompense a livello di risultato o di traiettoria, assegnando vantaggi uniformi a tutti i passi all'interno di una traiettoria. Questa assegnazione del credito a grana grossa non riesce a distinguere le chiamate agli strumenti efficaci da quelle ridondanti o errate, specialmente in scenari multi-turno a lungo orizzonte. Per affrontare questo problema, proponiamo MatchTIR, un framework che introduce una supervisione a grana fine tramite l'assegnazione di ricompense a livello di turno basata su bipartite matching e una stima del vantaggio a doppio livello. Nello specifico, formuliamo l'assegnazione del credito come un problema di bipartite matching tra tracce predette e ground-truth, utilizzando due strategie di assegnazione per derivare ricompense dense a livello di turno. Inoltre, per bilanciare la precisione dei passi locali con il successo del compito globale, introduciamo uno schema di stima del vantaggio a doppio livello che integra segnali a livello di turno e di traiettoria, assegnando valori di vantaggio distinti ai singoli turni di interazione. Esperimenti estesi su tre benchmark dimostrano la superiorità di MatchTIR. In particolare, il nostro modello da 4B supera la maggior parte dei competitor da 8B, specialmente in compiti multi-turno e a lungo orizzonte. I nostri codici sono disponibili su https://github.com/quchangle1/MatchTIR.

English

Tool-Integrated Reasoning (TIR) empowers large language models (LLMs) to tackle complex tasks by interleaving reasoning steps with external tool interactions. However, existing reinforcement learning methods typically rely on outcome- or trajectory-level rewards, assigning uniform advantages to all steps within a trajectory. This coarse-grained credit assignment fails to distinguish effective tool calls from redundant or erroneous ones, particularly in long-horizon multi-turn scenarios. To address this, we propose MatchTIR, a framework that introduces fine-grained supervision via bipartite matching-based turn-level reward assignment and dual-level advantage estimation. Specifically, we formulate credit assignment as a bipartite matching problem between predicted and ground-truth traces, utilizing two assignment strategies to derive dense turn-level rewards. Furthermore, to balance local step precision with global task success, we introduce a dual-level advantage estimation scheme that integrates turn-level and trajectory-level signals, assigning distinct advantage values to individual interaction turns. Extensive experiments on three benchmarks demonstrate the superiority of MatchTIR. Notably, our 4B model surpasses the majority of 8B competitors, particularly in long-horizon and multi-turn tasks. Our codes are available at https://github.com/quchangle1/MatchTIR.

MatchTIR: Supervisione Fine-Grained per il Ragionamento con Strumenti Integrati tramite Accoppiamento Bipartito

MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching

Abstract

Support