Evolución de Usuario de Herramientas a Creador mediante Reutilización de Experiencia Libre de Entrenamiento en Razonamiento Multimodal

Resumen

Los modelos existentes de Razonamiento Integrado con Herramientas (TIR) han ampliado eficazmente las capacidades de los LLM para responder preguntas mediante la incorporación de herramientas externas. Sin embargo, los escenarios del mundo real presentan numerosos problemas abiertos en los que las herramientas fijas a menudo no cumplen con los requisitos de la tarea. Además, la falta de mecanismos de auto-optimización significa que las salidas erróneas de las herramientas pueden desorientar las respuestas del LLM. Asimismo, la construcción de herramientas existentes conlleva un esfuerzo manual significativo, lo que restringe su aplicabilidad. Reconociendo que las trazas de razonamiento de los LLM encapsulan capacidades implícitas de resolución de problemas, proponemos UCT, un novedoso marco de trabajo libre de entrenamiento que transforma a los agentes de usuarios de herramientas en creadores de herramientas. Este enfoque cosecha experiencias de razonamiento y las destila en activos reutilizables. Este método transforma al agente de un mero usuario de herramientas en un creador de las mismas, permitiendo la creación adaptativa de herramientas y la auto-actualización durante el proceso de inferencia. También introducimos un mecanismo de consolidación de memoria para mantener la biblioteca de herramientas, garantizando una alta reutilización de la memoria experiencial retenida para tareas de razonamiento posteriores. Este novedoso paradigma de construcción automática de herramientas mejora continuamente la calidad de las mismas durante el razonamiento, permitiendo que el sistema general del agente avance sin necesidad de entrenamiento adicional. Experimentos exhaustivos demuestran que nuestro método sirve como un paradigma novedoso para mejorar las capacidades de los modelos TIR. En particular, las ganancias significativas de rendimiento logradas, +20.86%↑ y +23.04%↑ en puntos de referencia de tareas de razonamiento matemático y científico multidisciplinar, validan la capacidad de auto-evolución del agente.

English

Existing Tool-Integrated Reasoning (TIR) models have effectively extended the question-answering capabilities of LLMs by incorporating external tools. However, real-world scenarios present numerous open-ended problems where fixed tools often fail to meet task requirements. Furthermore, the lack of self-optimization mechanisms means that erroneous tool outputs can mislead the LLM's responses. Additionally, the construction of existing tools entails significant manual effort, which consequently constrains their applicability. Recognizing that the reasoning traces of LLMs encapsulate implicit problem-solving capabilities, we propose UCT, a novel training-free framework that transforms agents from tool users to tool creators. This approach harvests reasoning experiences and distills them into reusable assets. This method transforms the agent from a mere tool user into a tool creator, enabling adaptive tool creation and self-updating during the inference process. We also introduce a memory consolidation mechanism to maintain the tool library, ensuring high reusability of retained experiential memory for subsequent reasoning tasks. This novel automated tool construction paradigm continuously improves tool quality during reasoning, allowing the overall agent system to progress without additional training. Extensive experiments demonstrate that our method serves as a novel paradigm for enhancing the capabilities of TIR models. In particular, the significant performance gains achieved +20.86%uparrow and +23.04%uparrow on benchmarks across multi-domain mathematical and scientific reasoning tasks validate the self-evolving capability of the agent.