ChatPaper.aiChatPaper

Actuar con Sabiduría: Cultivando el Uso de Herramientas Meta-Cognitivas en Modelos Multimodales con Agencia

Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

April 9, 2026
Autores: Shilin Yan, Jintao Tong, Hongwei Xue, Xiaojun Tang, Yangyang Wang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou
cs.AI

Resumen

El advenimiento de modelos multimodales agentivos ha dotado a los sistemas de la capacidad de interactuar activamente con entornos externos. Sin embargo, los agentes actuales adolecen de un profundo déficit metacognitivo: les cuesta arbitrar entre aprovechar el conocimiento interno y consultar utilidades externas. En consecuencia, a menudo caen en la invocación ciega de herramientas, recurriendo a la ejecución reflexiva de las mismas incluso cuando las consultas pueden resolverse a partir del contexto visual directo. Este comportamiento patológico precipita graves cuellos de botella de latencia e inyecta ruido extrínseco que desvía el razonamiento sólido. Los protocolos existentes de aprendizaje por refuerzo intentan mitigar esto mediante una recompensa escalarizada que penaliza el uso de herramientas. No obstante, esta formulación acoplada crea un dilema de optimización irreconciliable: una penalización agresiva suprime el uso esencial de herramientas, mientras que una penalización leve queda completamente subsumida por la varianza de la recompensa de precisión durante la normalización de la ventaja, volviéndola ineficaz contra el uso excesivo de herramientas. Para superar este cuello de botella, proponemos HDPO, un marco que reformula la eficiencia de las herramientas, transformándola de un objetivo escalar competitivo a uno estrictamente condicional. Al prescindir de la escalarización de recompensas, HDPO mantiene dos canales de optimización ortogonales: un canal de precisión que maximiza la corrección de la tarea, y un canal de eficiencia que impone economía de ejecución exclusivamente dentro de trayectorias precisas mediante una estimación condicional de la ventaja. Esta arquitectura desacoplada induce naturalmente un currículum cognitivo que obliga al agente a dominar primero la resolución de la tarea antes de refinar su autonomía. Evaluaciones exhaustivas demuestran que nuestro modelo resultante, Metis, reduce las invocaciones de herramientas en órdenes de magnitud y simultáneamente eleva la precisión del razonamiento.
English
The advent of agentic multimodal models has empowered systems to actively interact with external environments. However, current agents suffer from a profound meta-cognitive deficit: they struggle to arbitrate between leveraging internal knowledge and querying external utilities. Consequently, they frequently fall prey to blind tool invocation, resorting to reflexive tool execution even when queries are resolvable from the raw visual context. This pathological behavior precipitates severe latency bottlenecks and injects extraneous noise that derails sound reasoning. Existing reinforcement learning protocols attempt to mitigate this via a scalarized reward that penalizes tool usage. Yet, this coupled formulation creates an irreconcilable optimization dilemma: an aggressive penalty suppresses essential tool use, whereas a mild penalty is entirely subsumed by the variance of the accuracy reward during advantage normalization, rendering it impotent against tool overuse. To transcend this bottleneck, we propose HDPO, a framework that reframes tool efficiency from a competing scalar objective to a strictly conditional one. By eschewing reward scalarization, HDPO maintains two orthogonal optimization channels: an accuracy channel that maximizes task correctness, and an efficiency channel that enforces execution economy exclusively within accurate trajectories via conditional advantage estimation. This decoupled architecture naturally induces a cognitive curriculum-compelling the agent to first master task resolution before refining its self-reliance. Extensive evaluations demonstrate that our resulting model, Metis, reduces tool invocations by orders of magnitude while simultaneously elevating reasoning accuracy.
PDF281April 11, 2026