Evolução de Utilizador de Ferramentas para Criador através da Reutilização de Experiência sem Treino em Raciocínio Multimodal

Resumo

Os modelos existentes de Raciocínio Integrado com Ferramentas (TIR) estenderam efetivamente as capacidades de resposta a perguntas de LLMs através da incorporação de ferramentas externas. No entanto, cenários do mundo real apresentam numerosos problemas abertos nos quais ferramentas fixas frequentemente falham em atender aos requisitos da tarefa. Além disso, a falta de mecanismos de auto-otimização significa que saídas errôneas de ferramentas podem induzir em erro as respostas do LLM. Adicionalmente, a construção de ferramentas existentes exige um esforço manual significativo, o que consequentemente restringe sua aplicabilidade. Reconhecendo que os traços de raciocínio dos LLMs encapsulam capacidades implícitas de resolução de problemas, propomos o UCT, uma nova estrutura *training-free* que transforma agentes de usuários de ferramentas em criadores de ferramentas. Esta abordagem colhe experiências de raciocínio e as destila em ativos reutilizáveis. Este método transforma o agente de um mero utilizador de ferramentas num criador de ferramentas, permitindo a criação adaptativa de ferramentas e a auto-atualização durante o processo de inferência. Também introduzimos um mecanismo de consolidação de memória para manter a biblioteca de ferramentas, garantindo alta reutilização da memória experiencial retida para tarefas de raciocínio subsequentes. Este novo paradigma de construção automatizada de ferramentas melhora continuamente a qualidade das ferramentas durante o raciocínio, permitindo que o sistema geral do agente progrida sem treinamento adicional. Experimentos extensivos demonstram que o nosso método serve como um novo paradigma para melhorar as capacidades dos modelos TIR. Em particular, os ganhos significativos de desempenho alcançados (+20,86%↑ e +23,04%↑) em *benchmarks* de tarefas de raciocínio matemático e científico multidomínio validam a capacidade de auto-evolução do agente.

English

Existing Tool-Integrated Reasoning (TIR) models have effectively extended the question-answering capabilities of LLMs by incorporating external tools. However, real-world scenarios present numerous open-ended problems where fixed tools often fail to meet task requirements. Furthermore, the lack of self-optimization mechanisms means that erroneous tool outputs can mislead the LLM's responses. Additionally, the construction of existing tools entails significant manual effort, which consequently constrains their applicability. Recognizing that the reasoning traces of LLMs encapsulate implicit problem-solving capabilities, we propose UCT, a novel training-free framework that transforms agents from tool users to tool creators. This approach harvests reasoning experiences and distills them into reusable assets. This method transforms the agent from a mere tool user into a tool creator, enabling adaptive tool creation and self-updating during the inference process. We also introduce a memory consolidation mechanism to maintain the tool library, ensuring high reusability of retained experiential memory for subsequent reasoning tasks. This novel automated tool construction paradigm continuously improves tool quality during reasoning, allowing the overall agent system to progress without additional training. Extensive experiments demonstrate that our method serves as a novel paradigm for enhancing the capabilities of TIR models. In particular, the significant performance gains achieved +20.86%uparrow and +23.04%uparrow on benchmarks across multi-domain mathematical and scientific reasoning tasks validate the self-evolving capability of the agent.