Handeln mit Bedacht: Die Förderung metakognitiver Werkzeugnutzung in agentiven multimodalen Modellen

Zusammenfassung

Das Aufkommen agentiver multimodaler Modelle hat Systeme in die Lage versetzt, aktiv mit externen Umgebungen zu interagieren. Allerdings leiden aktuelle Agenten unter einem tiefgreifenden metakognitiven Defizit: Sie haben Schwierigkeiten, zwischen der Nutzung internen Wissens und der Abfrage externer Hilfsmittel abzuwägen. Infolgedessen verfallen sie häufig blindem Werkzeugaufruf und greifen reflexartig auf Werkzeuge zurück, selbst wenn Anfragen aus dem unverarbeiteten visuellen Kontext lösbar wären. Dieses pathologische Verhalten führt zu erheblichen Latenzengpässen und injiziert überflüssiges Rauschen, das solide Schlussfolgerungen vereitelt. Bestehende Reinforcement-Learning-Protokolle versuchen, dies durch skalarisierte Belohnung zu mildern, die Werkzeugnutzung bestraft. Diese gekoppelte Formulierung erzeugt jedoch ein unlösbares Optimierungsdilemma: Eine aggressive Bestrafung unterdrückt essenzielle Werkzeugnutzung, während eine milde Bestrafung bei der Advantage-Normalisierung vollständig von der Varianz der Genauigkeitsbelohnung überlagert wird und somit wirkungslos gegen übermäßigen Werkzeuggebrauch bleibt. Um diesen Engpass zu überwinden, schlagen wir HDPO vor, ein Framework, das Werkzeugeffizienz von einem konkurrierenden skalaren Ziel in eine streng bedingte Anforderung umformuliert. Indem HDPO auf Skalarisierung der Belohnung verzichtet, unterhält es zwei orthogonale Optimierungskanäle: einen Genauigkeitskanal, der die Aufgabenkorrektheit maximiert, und einen Effizienzkanal, der ausschließlich in korrekten Trajektorien über bedingte Advantage-Schätzung Ausführungsökonomie durchsetzt. Diese entkoppelte Architektur induziert natürlich einen kognitiven Lehrplan – der Agent muss zunächst die Aufgabenerfüllung meistern, bevor er seine Selbstständigkeit verfeinert. Umfassende Evaluationen zeigen, dass unser resultierendes Modell Metis Werkzeugaufrufe um Größenordnungen reduziert und gleichzeitig die Schlussfolgerungsgenauigkeit steigert.

English

The advent of agentic multimodal models has empowered systems to actively interact with external environments. However, current agents suffer from a profound meta-cognitive deficit: they struggle to arbitrate between leveraging internal knowledge and querying external utilities. Consequently, they frequently fall prey to blind tool invocation, resorting to reflexive tool execution even when queries are resolvable from the raw visual context. This pathological behavior precipitates severe latency bottlenecks and injects extraneous noise that derails sound reasoning. Existing reinforcement learning protocols attempt to mitigate this via a scalarized reward that penalizes tool usage. Yet, this coupled formulation creates an irreconcilable optimization dilemma: an aggressive penalty suppresses essential tool use, whereas a mild penalty is entirely subsumed by the variance of the accuracy reward during advantage normalization, rendering it impotent against tool overuse. To transcend this bottleneck, we propose HDPO, a framework that reframes tool efficiency from a competing scalar objective to a strictly conditional one. By eschewing reward scalarization, HDPO maintains two orthogonal optimization channels: an accuracy channel that maximizes task correctness, and an efficiency channel that enforces execution economy exclusively within accurate trajectories via conditional advantage estimation. This decoupled architecture naturally induces a cognitive curriculum-compelling the agent to first master task resolution before refining its self-reliance. Extensive evaluations demonstrate that our resulting model, Metis, reduces tool invocations by orders of magnitude while simultaneously elevating reasoning accuracy.

Handeln mit Bedacht: Die Förderung metakognitiver Werkzeugnutzung in agentiven multimodalen Modellen

Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

Zusammenfassung

Support