ChatPaper.aiChatPaper

Agir avec sagesse : Cultiver l'utilisation méta-cognitive d'outils dans les modèles multimodaux agentiels

Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

April 9, 2026
Auteurs: Shilin Yan, Jintao Tong, Hongwei Xue, Xiaojun Tang, Yangyang Wang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou
cs.AI

Résumé

L'avènement des modèles multimodaux agentiques a doté les systèmes d'une capacité d'interaction active avec des environnements externes. Cependant, les agents actuels souffrent d'un déficit métacognitif profond : ils peinent à arbitrer entre l'exploitation des connaissances internes et l'interrogation d'utilités externes. Par conséquent, ils succombent fréquemment à une invocation aveugle d'outils, ayant recours à une exécution réflexive même lorsque les requêtes peuvent être résolues à partir du contexte visuel brut. Ce comportement pathologique engendre de sévères goulots d'étranglement en latence et injecte un bruit superflu qui compromet le raisonnement solide. Les protocoles d'apprentissage par renforcement existants tentent d'y remédier par une récompense scalaire qui pénalise l'utilisation d'outils. Pourtant, cette formulation couplée crée un dilemme d'optimisation insoluble : une pénalité agressive supprime les utilisations essentielles d'outils, tandis qu'une pénalité légère est entièrement absorbée par la variance de la récompense de précision lors de la normalisation de l'avantage, la rendant inefficace contre la surutilisation d'outils. Pour transcender ce goulot d'étranglement, nous proposons HDPO, un cadre qui reformule l'efficacité des outils d'un objectif scalaire concurrent en un objectif strictement conditionnel. En renonçant à la scalarisation des récompenses, HDPO maintient deux canaux d'optimisation orthogonaux : un canal de précision qui maximise l'exactitude de la tâche, et un canal d'efficacité qui impose l'économie d'exécution exclusivement dans les trajectoires exactes via une estimation conditionnelle de l'avantage. Cette architecture découplée induit naturellement un curriculum cognitif, contraignant l'agent à maîtriser d'abord la résolution de la tâche avant d'affiner son autonomie. Des évaluations approfondies démontrent que notre modèle résultant, Métis, réduit les invocations d'outils de plusieurs ordres de grandeur tout en élevant simultanément la précision du raisonnement.
English
The advent of agentic multimodal models has empowered systems to actively interact with external environments. However, current agents suffer from a profound meta-cognitive deficit: they struggle to arbitrate between leveraging internal knowledge and querying external utilities. Consequently, they frequently fall prey to blind tool invocation, resorting to reflexive tool execution even when queries are resolvable from the raw visual context. This pathological behavior precipitates severe latency bottlenecks and injects extraneous noise that derails sound reasoning. Existing reinforcement learning protocols attempt to mitigate this via a scalarized reward that penalizes tool usage. Yet, this coupled formulation creates an irreconcilable optimization dilemma: an aggressive penalty suppresses essential tool use, whereas a mild penalty is entirely subsumed by the variance of the accuracy reward during advantage normalization, rendering it impotent against tool overuse. To transcend this bottleneck, we propose HDPO, a framework that reframes tool efficiency from a competing scalar objective to a strictly conditional one. By eschewing reward scalarization, HDPO maintains two orthogonal optimization channels: an accuracy channel that maximizes task correctness, and an efficiency channel that enforces execution economy exclusively within accurate trajectories via conditional advantage estimation. This decoupled architecture naturally induces a cognitive curriculum-compelling the agent to first master task resolution before refining its self-reliance. Extensive evaluations demonstrate that our resulting model, Metis, reduces tool invocations by orders of magnitude while simultaneously elevating reasoning accuracy.
PDF281April 11, 2026