Dall'Utilizzatore di Strumenti al Creatore: Evoluzione tramite Riuso Esperienziale Senza Addestramento nel Ragionamento Multimodale

Abstract

I modelli esistenti di ragionamento integrato con strumenti (TIR) hanno efficacemente esteso le capacità di risposta alle domande degli LLM incorporando strumenti esterni. Tuttavia, gli scenari del mondo reale presentano numerosi problemi aperti in cui strumenti fissi spesso non soddisfano i requisiti del compito. Inoltre, la mancanza di meccanismi di auto-ottimizzazione significa che output errati degli strumenti possono fuorviare le risposte degli LLM. Ulteriormente, la costruzione degli strumenti esistenti richiede uno sforzo manuale significativo, che di conseguenza ne limita l'applicabilità. Riconoscendo che le tracce di ragionamento degli LLM racchiudono capacità implicite di problem-solving, proponiamo UCT, un nuovo framework senza addestramento che trasforma gli agenti da utenti di strumenti a creatori di strumenti. Questo approccio raccoglie esperienze di ragionamento e le distilla in risorse riutilizzabili. Questo metodo trasforma l'agente da mero utente di strumenti a creatore di strumenti, consentendo la creazione adattiva di strumenti e l'auto-aggiornamento durante il processo di inferenza. Introduciamo anche un meccanismo di consolidamento della memoria per mantenere la libreria degli strumenti, garantendo un'elevata riutilizzabilità della memoria esperienziale conservata per i successivi compiti di ragionamento. Questo nuovo paradigma di costruzione automatizzata di strumenti migliora continuamente la qualità degli strumenti durante il ragionamento, consentendo al sistema agente complessivo di progredire senza ulteriore addestramento. Esperimenti estensivi dimostrano che il nostro metodo rappresenta un nuovo paradigma per potenziare le capacità dei modelli TIR. In particolare, i significativi miglioramenti delle prestazioni ottenuti, +20,86%↑ e +23,04%↑ su benchmark relativi a compiti di ragionamento matematico e scientifico multi-dominio, convalidano la capacità di auto-evoluzione dell'agente.

English

Existing Tool-Integrated Reasoning (TIR) models have effectively extended the question-answering capabilities of LLMs by incorporating external tools. However, real-world scenarios present numerous open-ended problems where fixed tools often fail to meet task requirements. Furthermore, the lack of self-optimization mechanisms means that erroneous tool outputs can mislead the LLM's responses. Additionally, the construction of existing tools entails significant manual effort, which consequently constrains their applicability. Recognizing that the reasoning traces of LLMs encapsulate implicit problem-solving capabilities, we propose UCT, a novel training-free framework that transforms agents from tool users to tool creators. This approach harvests reasoning experiences and distills them into reusable assets. This method transforms the agent from a mere tool user into a tool creator, enabling adaptive tool creation and self-updating during the inference process. We also introduce a memory consolidation mechanism to maintain the tool library, ensuring high reusability of retained experiential memory for subsequent reasoning tasks. This novel automated tool construction paradigm continuously improves tool quality during reasoning, allowing the overall agent system to progress without additional training. Extensive experiments demonstrate that our method serves as a novel paradigm for enhancing the capabilities of TIR models. In particular, the significant performance gains achieved +20.86%uparrow and +23.04%uparrow on benchmarks across multi-domain mathematical and scientific reasoning tasks validate the self-evolving capability of the agent.

Dall'Utilizzatore di Strumenti al Creatore: Evoluzione tramite Riuso Esperienziale Senza Addestramento nel Ragionamento Multimodale

Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning

Abstract

Support