Évolution de l'utilisateur d'outils au créateur via la réutilisation d'expériences sans entraînement dans le raisonnement multimodal

Résumé

Les modèles de raisonnement intégrant des outils (TIR) existants ont étendu efficacement les capacités de question-réponse des LLM en incorporant des outils externes. Cependant, les scénarios réels présentent de nombreux problèmes ouverts pour lesquels les outils fixes échouent souvent à répondre aux exigences des tâches. De plus, l'absence de mécanismes d'auto-optimisation signifie que les sorties erronées des outils peuvent induire en erreur les réponses des LLM. Par ailleurs, la construction des outils existants nécessite un effort manuel important, ce qui limite conséquemment leur applicabilité. Considérant que les traces de raisonnement des LLM encapsulent des capacités implicites de résolution de problèmes, nous proposons UCT, un nouveau cadre sans entraînement qui transforme les agents d'utilisateurs d'outils en créateurs d'outils. Cette approche récolte les expériences de raisonnement et les distille en ressources réutilisables. Cette méthode transforme l'agent d'un simple utilisateur d'outils en un créateur d'outils, permettant la création adaptative d'outils et leur auto-actualisation pendant le processus d'inférence. Nous introduisons également un mécanisme de consolidation de la mémoire pour maintenir la bibliothèque d'outils, garantissant une haute réutilisabilité de la mémoire expérientielle retenue pour les tâches de raisonnement ultérieures. Ce nouveau paradigme de construction automatisée d'outils améliore continuellement la qualité des outils pendant le raisonnement, permettant au système agent global de progresser sans entraînement supplémentaire. Des expériences approfondies démontrent que notre méthode constitue un nouveau paradigme pour améliorer les capacités des modèles TIR. En particulier, les gains de performance significatifs atteints (+20,86% ↑ et +23,04% ↑) sur des benchmarks couvrant des tâches de raisonnement mathématique et scientifique multi-domaines valident la capacité d'auto-évolution de l'agent.

English

Existing Tool-Integrated Reasoning (TIR) models have effectively extended the question-answering capabilities of LLMs by incorporating external tools. However, real-world scenarios present numerous open-ended problems where fixed tools often fail to meet task requirements. Furthermore, the lack of self-optimization mechanisms means that erroneous tool outputs can mislead the LLM's responses. Additionally, the construction of existing tools entails significant manual effort, which consequently constrains their applicability. Recognizing that the reasoning traces of LLMs encapsulate implicit problem-solving capabilities, we propose UCT, a novel training-free framework that transforms agents from tool users to tool creators. This approach harvests reasoning experiences and distills them into reusable assets. This method transforms the agent from a mere tool user into a tool creator, enabling adaptive tool creation and self-updating during the inference process. We also introduce a memory consolidation mechanism to maintain the tool library, ensuring high reusability of retained experiential memory for subsequent reasoning tasks. This novel automated tool construction paradigm continuously improves tool quality during reasoning, allowing the overall agent system to progress without additional training. Extensive experiments demonstrate that our method serves as a novel paradigm for enhancing the capabilities of TIR models. In particular, the significant performance gains achieved +20.86%uparrow and +23.04%uparrow on benchmarks across multi-domain mathematical and scientific reasoning tasks validate the self-evolving capability of the agent.

Évolution de l'utilisateur d'outils au créateur via la réutilisation d'expériences sans entraînement dans le raisonnement multimodal

Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning

Résumé

Support