Эволюция от пользователя инструментов к создателю посредством бестренировочного повторного использования опыта в мультимодальном мышлении

Аннотация

Существующие модели инструментально-ориентированного рассуждения (TIR) эффективно расширяют способности больших языковых моделей к ответам на вопросы за счет интеграции внешних инструментов. Однако в реальных сценариях существует множество открытых проблем, где фиксированные инструменты часто не соответствуют требованиям задачи. Кроме того, отсутствие механизмов самооптимизации означает, что ошибочные выходные данные инструментов могут вводить ответы модели в заблуждение. Дополнительно, создание существующих инструментов требует значительных ручных усилий, что ограничивает их применимость. Учитывая, что траектории рассуждений LLM инкапсулируют неявные способности к решению проблем, мы предлагаем UCT — новую беспараметрическую структуру, преобразующую агентов из пользователей инструментов в их создателей. Данный подход аккумулирует опыт рассуждений и дистиллирует его в переиспользуемые активы. Этот метод трансформирует агента из простого пользователя инструментов в создателя инструментов, обеспечивая адаптивное создание инструментов и самообновление в процессе вывода. Мы также вводим механизм консолидации памяти для поддержания библиотеки инструментов, гарантируя высокую переиспользуемость сохраненного эмпирического опыта для последующих задач рассуждения. Эта новая парадигма автоматизированного построения инструментов непрерывно улучшает их качество в процессе рассуждения, позволяя системе агентов развиваться без дополнительного обучения. Масштабные эксперименты демонстрируют, что наш метод представляет собой новую парадигму повышения возможностей моделей TIR. В частности, значительный прирост производительности +20.86%↑ и +23.04%↑ на бенчмарках в многодоменных математических и научных задачах подтверждает способность агента к саморазвитию.

English

Existing Tool-Integrated Reasoning (TIR) models have effectively extended the question-answering capabilities of LLMs by incorporating external tools. However, real-world scenarios present numerous open-ended problems where fixed tools often fail to meet task requirements. Furthermore, the lack of self-optimization mechanisms means that erroneous tool outputs can mislead the LLM's responses. Additionally, the construction of existing tools entails significant manual effort, which consequently constrains their applicability. Recognizing that the reasoning traces of LLMs encapsulate implicit problem-solving capabilities, we propose UCT, a novel training-free framework that transforms agents from tool users to tool creators. This approach harvests reasoning experiences and distills them into reusable assets. This method transforms the agent from a mere tool user into a tool creator, enabling adaptive tool creation and self-updating during the inference process. We also introduce a memory consolidation mechanism to maintain the tool library, ensuring high reusability of retained experiential memory for subsequent reasoning tasks. This novel automated tool construction paradigm continuously improves tool quality during reasoning, allowing the overall agent system to progress without additional training. Extensive experiments demonstrate that our method serves as a novel paradigm for enhancing the capabilities of TIR models. In particular, the significant performance gains achieved +20.86%uparrow and +23.04%uparrow on benchmarks across multi-domain mathematical and scientific reasoning tasks validate the self-evolving capability of the agent.

Эволюция от пользователя инструментов к создателю посредством бестренировочного повторного использования опыта в мультимодальном мышлении

Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning

Аннотация

Support