Handel Wijselijk: Het Kweken van Meta-Cognitief Gebruik van Hulpmiddelen in Agente Multimodale Modellen
Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models
April 9, 2026
Auteurs: Shilin Yan, Jintao Tong, Hongwei Xue, Xiaojun Tang, Yangyang Wang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou
cs.AI
Samenvatting
De opkomst van agentische multimodale modellen heeft systemen in staat gesteld actief te interacteren met externe omgevingen. Huidige agenten kampen echter met een fundamenteel metacognitief tekort: ze worstelen met de afweging tussen het benutten van interne kennis en het raadplegen van externe hulpmiddelen. Als gevolg daarvan vervallen ze vaak in blinde toolaanroepingen, waarbij ze terugvallen op reflexmatige tooluitvoering, zelfs wanneer vragen oplosbaar zijn vanuit de ruwe visuele context. Dit pathologische gedrag veroorzaakt ernstige latentieknelpunten en introduceert buitensporige ruis die een degelijke redenering ontspoort. Bestaande reinforcement learning-protocollen proberen dit te mitigeren via een gescalariseerde beloning die toolgebruik bestraft. Deze gekoppelde formulering creëert echter een onoplosbaar optimalisatiedilemma: een agressieve straf onderdrukt essentieel toolgebruik, terwijl een milde straf volledig wordt overschaduwd door de variantie van de nauwkeurigheidsbeloning tijdens advantage-normalisatie, waardoor deze machteloos staat tegenover toolovergebruik. Om dit knelpunt te overstijgen, stellen we HDPO voor, een raamwerk dat taalefficiëntie herformuleert van een concurrerende scalaire doelstelling naar een strikt conditionele. Door reward-scalarisatie achterwege te laten, handhaaft HDPO twee orthogonale optimalisatiekanalen: een nauwkeurigheidskanaal dat de taakcorrectheid maximaliseert, en een efficiëntiekanaal dat uitvoeringseconomie afdwingt uitsluitend binnen nauwkeurige trajecten via conditionele advantage-schatting. Deze ontkoppelde architectuur induceert van nature een cognitief curriculum – waarbij de agent eerst taakoplossing moet beheersen voordat deze zijn zelfredzaamheid verfijnt. Uitgebreide evaluaties tonen aan dat ons resulterende model, Metis, toolaanroepingen met ordes van grootte reduceert en tegelijkertijd de redeneernauwkeurigheid verhoogt.
English
The advent of agentic multimodal models has empowered systems to actively interact with external environments. However, current agents suffer from a profound meta-cognitive deficit: they struggle to arbitrate between leveraging internal knowledge and querying external utilities. Consequently, they frequently fall prey to blind tool invocation, resorting to reflexive tool execution even when queries are resolvable from the raw visual context. This pathological behavior precipitates severe latency bottlenecks and injects extraneous noise that derails sound reasoning. Existing reinforcement learning protocols attempt to mitigate this via a scalarized reward that penalizes tool usage. Yet, this coupled formulation creates an irreconcilable optimization dilemma: an aggressive penalty suppresses essential tool use, whereas a mild penalty is entirely subsumed by the variance of the accuracy reward during advantage normalization, rendering it impotent against tool overuse. To transcend this bottleneck, we propose HDPO, a framework that reframes tool efficiency from a competing scalar objective to a strictly conditional one. By eschewing reward scalarization, HDPO maintains two orthogonal optimization channels: an accuracy channel that maximizes task correctness, and an efficiency channel that enforces execution economy exclusively within accurate trajectories via conditional advantage estimation. This decoupled architecture naturally induces a cognitive curriculum-compelling the agent to first master task resolution before refining its self-reliance. Extensive evaluations demonstrate that our resulting model, Metis, reduces tool invocations by orders of magnitude while simultaneously elevating reasoning accuracy.