Agir com Sabedoria: Cultivando o Uso de Ferramentas Meta-Cognitivas em Modelos Multimodais Autônomos

Resumo

O advento de modelos multimodais agentivos capacitou sistemas a interagir ativamente com ambientes externos. No entanto, os agentes atuais padecem de um profundo déficit metacognitivo: eles lutam para arbitrar entre aproveitar o conhecimento interno e consultar utilitários externos. Consequentemente, frequentemente tornam-se vítimas de invocações cegas de ferramentas, recorrendo à execução reflexiva de ferramentas mesmo quando as consultas são resolvíveis a partir do contexto visual bruto. Este comportamento patológico precipita graves gargalos de latência e injeta ruído extrínseco que descarrila o raciocínio sólido. Os protocolos existentes de aprendizagem por reforço tentam mitigar isto através de uma recompensa escalarizada que penaliza o uso de ferramentas. No entanto, esta formulação acoplada cria um dilema de otimização irreconciliável: uma penalidade agressiva suprime o uso essencial de ferramentas, enquanto uma penalidade branda é inteiramente subsumida pela variância da recompensa de precisão durante a normalização da vantagem, tornando-a impotente contra o uso excessivo de ferramentas. Para transcender este gargalo, propomos o HDPO, uma estrutura que reformula a eficiência de ferramentas de um objetivo escalar concorrente para um estritamente condicional. Ao evitar a escalarização de recompensas, o HDPO mantém dois canais de otimização ortogonais: um canal de precisão que maximiza a correção da tarefa, e um canal de eficiência que impõe a economia de execução exclusivamente dentro de trajetórias precisas através de uma estimativa de vantagem condicional. Esta arquitetura desacoplada induz naturalmente um currículo cognitivo — forçando o agente a primeiro dominar a resolução da tarefa antes de refinar a sua autossuficiência. Avaliações extensivas demonstram que o nosso modelo resultante, Metis, reduz as invocações de ferramentas em ordens de magnitude enquanto simultaneamente eleva a precisão do raciocínio.

English

The advent of agentic multimodal models has empowered systems to actively interact with external environments. However, current agents suffer from a profound meta-cognitive deficit: they struggle to arbitrate between leveraging internal knowledge and querying external utilities. Consequently, they frequently fall prey to blind tool invocation, resorting to reflexive tool execution even when queries are resolvable from the raw visual context. This pathological behavior precipitates severe latency bottlenecks and injects extraneous noise that derails sound reasoning. Existing reinforcement learning protocols attempt to mitigate this via a scalarized reward that penalizes tool usage. Yet, this coupled formulation creates an irreconcilable optimization dilemma: an aggressive penalty suppresses essential tool use, whereas a mild penalty is entirely subsumed by the variance of the accuracy reward during advantage normalization, rendering it impotent against tool overuse. To transcend this bottleneck, we propose HDPO, a framework that reframes tool efficiency from a competing scalar objective to a strictly conditional one. By eschewing reward scalarization, HDPO maintains two orthogonal optimization channels: an accuracy channel that maximizes task correctness, and an efficiency channel that enforces execution economy exclusively within accurate trajectories via conditional advantage estimation. This decoupled architecture naturally induces a cognitive curriculum-compelling the agent to first master task resolution before refining its self-reliance. Extensive evaluations demonstrate that our resulting model, Metis, reduces tool invocations by orders of magnitude while simultaneously elevating reasoning accuracy.

Agir com Sabedoria: Cultivando o Uso de Ferramentas Meta-Cognitivas em Modelos Multimodais Autônomos

Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

Resumo

Support