Действуй мудро: развитие метакогнитивного использования инструментов в агентных мультимодальных моделях

Аннотация

Появление агентных мультимодальных моделей наделило системы способностью активно взаимодействоватьть с внешней средой. Однако современные агенты страдают от глубокого метакогнитивного дефицита: они не могут эффективно выбирать между использованием внутренних знаний и обращением к внешним инструментам. Как следствие, они часто становятся жертвами слепого вызова инструментов, прибегая к рефлекторному их использованию даже когда запросы могут быть разрешены на основе визуального контекста. Это патологическое поведение создает серьезные проблемы с задержками и вносит посторонний шум, который нарушает логические рассуждения. Существующие протоколы обучения с подкреплением пытаются смягчить эту проблему с помощью скаляризованного вознаграждения, штрафующего использование инструментов. Однако такая связанная формулировка создает неразрешимую оптимизационную дилемму: агрессивный штраф подавляет необходимое использование инструментов, тогда как слабый штраф полностью поглощается дисперсией вознаграждения за точность при нормализации преимущества, что делает его неэффективным против чрезмерного использования инструментов. Чтобы преодолеть это ограничение, мы предлагаем HDPO — фреймворк, который переосмысливает эффективность использования инструментов с конкурирующей скалярной цели на строго условную. Отказавшись от скаляризации вознаграждения, HDPO поддерживает два ортогональных канала оптимизации: канал точности, который максимизирует правильность решения задачи, и канал эффективности, который обеспечивает экономию выполнения исключительно в рамках корректных траекторий через условную оценку преимущества. Эта развязанная архитектура естественным образом создает когнитивный учебный план, заставляя агента сначала освоить решение задачи, а затем совершенствовать свою самостоятельность. Многочисленные оценки демонстрируют, что наша результирующая модель Metis сокращает количество вызовов инструментов на порядки, одновременно повышая точность рассуждений.

English

The advent of agentic multimodal models has empowered systems to actively interact with external environments. However, current agents suffer from a profound meta-cognitive deficit: they struggle to arbitrate between leveraging internal knowledge and querying external utilities. Consequently, they frequently fall prey to blind tool invocation, resorting to reflexive tool execution even when queries are resolvable from the raw visual context. This pathological behavior precipitates severe latency bottlenecks and injects extraneous noise that derails sound reasoning. Existing reinforcement learning protocols attempt to mitigate this via a scalarized reward that penalizes tool usage. Yet, this coupled formulation creates an irreconcilable optimization dilemma: an aggressive penalty suppresses essential tool use, whereas a mild penalty is entirely subsumed by the variance of the accuracy reward during advantage normalization, rendering it impotent against tool overuse. To transcend this bottleneck, we propose HDPO, a framework that reframes tool efficiency from a competing scalar objective to a strictly conditional one. By eschewing reward scalarization, HDPO maintains two orthogonal optimization channels: an accuracy channel that maximizes task correctness, and an efficiency channel that enforces execution economy exclusively within accurate trajectories via conditional advantage estimation. This decoupled architecture naturally induces a cognitive curriculum-compelling the agent to first master task resolution before refining its self-reliance. Extensive evaluations demonstrate that our resulting model, Metis, reduces tool invocations by orders of magnitude while simultaneously elevating reasoning accuracy.

Действуй мудро: развитие метакогнитивного использования инструментов в агентных мультимодальных моделях

Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

Аннотация

Support