MatchTIR: Fijnmazig Toezicht voor Gereedschapsgeïntegreerd Redeneren via Bipartiete Matching

Samenvatting

Tool-Integrated Reasoning (TIR) stelt grote taalmodelmodellen (LLM's) in staat om complexe taken aan te pakken door redeneerstappen af te wisselen met interacties via externe tools. Bestaande reinforcement learning-methoden vertrouwen echter doorgaans op beloningen op uitkomst- of trajectniveau, waarbij uniforme voordelen worden toegekend aan alle stappen binnen een traject. Deze grove toekenning van credits maakt geen onderscheid tussen effectieve toolaanroepen en overbodige of foutieve aanroepen, vooral niet in scenario's met een lange horizon en meerdere beurten. Om dit aan te pakken, stellen we MatchTIR voor, een raamwerk dat fijnmazige supervisie introduceert via op bipartiete matching gebaseerde toekenning van beurtniveau-beloningen en voordeelschatting op dubbel niveau. Concreet formuleren we de toekenning van credits als een bipartiet matchingprobleem tussen voorspelde en grond-waarheidstraces, waarbij we twee toekenningsstrategieën gebruiken om dichte beloningen op beurtniveau af te leiden. Verder introduceren we, om lokale stapprecisie te balanceren met globaal taaksucces, een voordeelschattingsschema op dubbel niveau dat signalen op beurtniveau en trajectniveau integreert, waarbij afzonderlijke voordeelwaarden worden toegekend aan individuele interactiebeurten. Uitgebreide experimenten op drie benchmarks tonen de superioriteit van MatchTIR aan. Opmerkelijk is dat ons 4B-model de meerderheid van de 8B-concurrenten overtreft, vooral in taken met een lange horizon en meerdere beurten. Onze code is beschikbaar op https://github.com/quchangle1/MatchTIR.

English

Tool-Integrated Reasoning (TIR) empowers large language models (LLMs) to tackle complex tasks by interleaving reasoning steps with external tool interactions. However, existing reinforcement learning methods typically rely on outcome- or trajectory-level rewards, assigning uniform advantages to all steps within a trajectory. This coarse-grained credit assignment fails to distinguish effective tool calls from redundant or erroneous ones, particularly in long-horizon multi-turn scenarios. To address this, we propose MatchTIR, a framework that introduces fine-grained supervision via bipartite matching-based turn-level reward assignment and dual-level advantage estimation. Specifically, we formulate credit assignment as a bipartite matching problem between predicted and ground-truth traces, utilizing two assignment strategies to derive dense turn-level rewards. Furthermore, to balance local step precision with global task success, we introduce a dual-level advantage estimation scheme that integrates turn-level and trajectory-level signals, assigning distinct advantage values to individual interaction turns. Extensive experiments on three benchmarks demonstrate the superiority of MatchTIR. Notably, our 4B model surpasses the majority of 8B competitors, particularly in long-horizon and multi-turn tasks. Our codes are available at https://github.com/quchangle1/MatchTIR.

MatchTIR: Fijnmazig Toezicht voor Gereedschapsgeïntegreerd Redeneren via Bipartiete Matching

MatchTIR: Fine-Grained Supervision for Tool-Integrated Reasoning via Bipartite Matching

Samenvatting

Support