Van Toolgebruiker naar Schepper: Evolutie via Trainingsvrije Hergebruik van Ervaringen in Multimodale Redenering

Samenvatting

Bestaande Tool-Integrated Reasoning (TIR)-modellen hebben de vraag-beantwoordingscapaciteiten van LLM's effectief uitgebreid door externe tools te integreren. Echter, in realistische scenario's doen zich talloze open-eindproblemen voor waarbij vaste tools vaak niet aan de taakeisen voldoen. Bovendien betekent het ontbreken van zelfoptimalisatiemechanismen dat foutieve tooloutputs de antwoorden van de LLM kunnen misleiden. Daarnaast vereist de constructie van bestaande tools aanzienlijke handmatige inspanning, wat hun toepasbaarheid beperkt. Omdat de redeneersporen van LLM's impliciete probleemoplossende capaciteiten omvatten, stellen wij UCT voor, een nieuw trainingsvrij raamwerk dat agents transformeert van toolgebruikers naar toolcreators. Deze aanbouw oogst redeneerervaringen en destilleert deze tot herbruikbare middelen. Deze methode transformeert de agent van een loutere toolgebruiker naar een toolcreator, waardoor adaptieve toolcreatie en zelfupdates tijdens het inferentieproces mogelijk worden. Wij introduceren ook een geheugenconsolidatiemechanisme om de toolbibliotheek te onderhouden, waardoor een hoge herbruikbaarheid van behouden ervaringsgeheugen voor latere redeneertaken wordt gegarandeerd. Dit nieuwe geautomatiseerde toolconstructieparadigma verbetert continu de toolkwaliteit tijdens het redeneren, waardoor het overall agentsysteem kan voortschrijden zonder aanvullende training. Uitgebreide experimenten tonen aan dat onze methode een nieuw paradigma vormt voor het verbeteren van de capaciteiten van TIR-modellen. In het bijzonder valideren de significante prestatieverbeteringen van +20,86%↑ en +23,04%↑ op benchmarks voor multidomein wiskundige en wetenschappelijke redeneertaken het zelf-evoluerende vermogen van de agent.

English

Existing Tool-Integrated Reasoning (TIR) models have effectively extended the question-answering capabilities of LLMs by incorporating external tools. However, real-world scenarios present numerous open-ended problems where fixed tools often fail to meet task requirements. Furthermore, the lack of self-optimization mechanisms means that erroneous tool outputs can mislead the LLM's responses. Additionally, the construction of existing tools entails significant manual effort, which consequently constrains their applicability. Recognizing that the reasoning traces of LLMs encapsulate implicit problem-solving capabilities, we propose UCT, a novel training-free framework that transforms agents from tool users to tool creators. This approach harvests reasoning experiences and distills them into reusable assets. This method transforms the agent from a mere tool user into a tool creator, enabling adaptive tool creation and self-updating during the inference process. We also introduce a memory consolidation mechanism to maintain the tool library, ensuring high reusability of retained experiential memory for subsequent reasoning tasks. This novel automated tool construction paradigm continuously improves tool quality during reasoning, allowing the overall agent system to progress without additional training. Extensive experiments demonstrate that our method serves as a novel paradigm for enhancing the capabilities of TIR models. In particular, the significant performance gains achieved +20.86%uparrow and +23.04%uparrow on benchmarks across multi-domain mathematical and scientific reasoning tasks validate the self-evolving capability of the agent.

Van Toolgebruiker naar Schepper: Evolutie via Trainingsvrije Hergebruik van Ervaringen in Multimodale Redenering

Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning

Samenvatting

Support