Vom Werkzeugnutzer zum Schöpfer: Entwicklung durch trainingsfreie Wiederverwendung von Erfahrungen im multimodalen Denken

Zusammenfassung

Bestehende Tool-Integrated Reasoning (TIR)-Modelle haben die Frage-Antwort-Fähigkeiten von LLMs effektiv erweitert, indem sie externe Werkzeuge einbinden. In realen Szenarien treten jedoch zahlreiche offene Probleme auf, bei denen feste Werkzeuge oft den Aufgabenanforderungen nicht gerecht werden. Darüber hinaus führt das Fehlen von Selbstoptimierungsmechanismen dazu, dass fehlerhafte Werkzeugausgaben die Antworten des LLM in die Irre leiten können. Zusätzlich erfordert die Konstruktion bestehender Werkzeuge erheblichen manuellen Aufwand, was deren Anwendbarkeit einschränkt. Da die Reasoning-Traces von LLMs implizite Problemlösungsfähigkeiten verkörpern, schlagen wir UCT vor, ein neuartiges trainingsfreies Framework, das Agenten von Werkzeugnutzern zu Werkzeugschöpfern transformiert. Dieser Ansatz erntet Reasoning-Erfahrungen und destilliert sie zu wiederverwendbaren Assets. Die Methode verwandelt den Agenten von einem bloßen Werkzeugnutzer in einen Werkzeugersteller, der adaptive Werkzeuggestaltung und Selbstaktualisierung während des Inferenzprozesses ermöglicht. Wir führen zudem einen Mechanismus zur Gedächtniskonsolidierung ein, um die Werkzeugbibliothek zu verwalten und die hohe Wiederverwendbarkeit beibehaltener Erfahrungserinnerungen für nachfolgende Reasoning-Aufgaben sicherzustellen. Dieses neuartige Paradigma der automatisierten Werkzeugkonstruktion verbessert kontinuierlich die Werkzeugqualität während des Reasonings, sodass das gesamte Agentensystem ohne zusätzliches Training fortschreiten kann. Umfangreiche Experimente belegen, dass unsere Methode ein neuartiges Paradigma zur Erweiterung der Fähigkeiten von TIR-Modellen darstellt. Insbesondere die signifikanten Leistungssteigerungen von +20,86%↑ und +23,04%↑ auf Benchmarks für multidisziplinäre mathematische und wissenschaftliche Reasoning-Aufgaben validieren die selbstevolutionäre Fähigkeit des Agenten.

English

Existing Tool-Integrated Reasoning (TIR) models have effectively extended the question-answering capabilities of LLMs by incorporating external tools. However, real-world scenarios present numerous open-ended problems where fixed tools often fail to meet task requirements. Furthermore, the lack of self-optimization mechanisms means that erroneous tool outputs can mislead the LLM's responses. Additionally, the construction of existing tools entails significant manual effort, which consequently constrains their applicability. Recognizing that the reasoning traces of LLMs encapsulate implicit problem-solving capabilities, we propose UCT, a novel training-free framework that transforms agents from tool users to tool creators. This approach harvests reasoning experiences and distills them into reusable assets. This method transforms the agent from a mere tool user into a tool creator, enabling adaptive tool creation and self-updating during the inference process. We also introduce a memory consolidation mechanism to maintain the tool library, ensuring high reusability of retained experiential memory for subsequent reasoning tasks. This novel automated tool construction paradigm continuously improves tool quality during reasoning, allowing the overall agent system to progress without additional training. Extensive experiments demonstrate that our method serves as a novel paradigm for enhancing the capabilities of TIR models. In particular, the significant performance gains achieved +20.86%uparrow and +23.04%uparrow on benchmarks across multi-domain mathematical and scientific reasoning tasks validate the self-evolving capability of the agent.

Vom Werkzeugnutzer zum Schöpfer: Entwicklung durch trainingsfreie Wiederverwendung von Erfahrungen im multimodalen Denken

Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning

Zusammenfassung

Support