ChatPaper.aiChatPaper

賢く行動せよ:エージェント型マルチモーダルモデルにおけるメタ認知的ツール利用の育成

Act Wisely: Cultivating Meta-Cognitive Tool Use in Agentic Multimodal Models

April 9, 2026
著者: Shilin Yan, Jintao Tong, Hongwei Xue, Xiaojun Tang, Yangyang Wang, Kunyu Shi, Guannan Zhang, Ruixuan Li, Yixiong Zou
cs.AI

要旨

エージェンシーを持つマルチモーダルモデルの出現により、システムは外部環境と能動的に相互作用する能力を獲得した。しかし、現在のエージェントは深刻なメタ認知的欠陥に悩まされている。すなわち、内部知識を活用するか、外部ユーティリティに問い合わせるかの判断が困難なのである。その結果、生の視覚文脈から解決可能なクエリであっても、反射的なツール実行に頼るなど、盲目的なツール呼び出しの犠牲になることが多い。この病的な振る舞いは、深刻なレイテンシのボトルネックを引き起こし、健全な推論を妨げる余計なノイズを注入する。既存の強化学習プロトコルは、ツール使用にペナルティを課すスカラー化された報酬によってこの問題の緩和を試みている。しかし、この結合された定式化は解決不能な最適化ジレンマを生み出す。攻撃的なペナルティは不可欠なツール使用を抑制し、一方で穏やかなペナルティは優勢度正規化における精度報酬の分散に完全に飲み込まれ、ツールの過剰使用に対して無力なのである。このボトルネックを超克するため、我々はHDPOを提案する。このフレームワークは、ツール効率を競合するスカラー目的から、厳密に条件付きの目的へと再定義する。報酬のスカラー化を回避することで、HDPOは二つの直交する最適化チャネルを維持する。タスクの正確さを最大化する「精度チャネル」と、条件付き優勢度推定を介して正確な軌跡内でのみ実行経済性を強制する「効率チャネル」である。この分離されたアーキテクチャは、エージェントが自己信頼性を洗練させる前にまずタスク解決を習得することを強制する、自然な認知的カリキュラムを誘導する。大規模な評価により、我々が得たモデルMetisが、推論精度を向上させながら、ツール呼び出しを桁違いに削減することを実証した。
English
The advent of agentic multimodal models has empowered systems to actively interact with external environments. However, current agents suffer from a profound meta-cognitive deficit: they struggle to arbitrate between leveraging internal knowledge and querying external utilities. Consequently, they frequently fall prey to blind tool invocation, resorting to reflexive tool execution even when queries are resolvable from the raw visual context. This pathological behavior precipitates severe latency bottlenecks and injects extraneous noise that derails sound reasoning. Existing reinforcement learning protocols attempt to mitigate this via a scalarized reward that penalizes tool usage. Yet, this coupled formulation creates an irreconcilable optimization dilemma: an aggressive penalty suppresses essential tool use, whereas a mild penalty is entirely subsumed by the variance of the accuracy reward during advantage normalization, rendering it impotent against tool overuse. To transcend this bottleneck, we propose HDPO, a framework that reframes tool efficiency from a competing scalar objective to a strictly conditional one. By eschewing reward scalarization, HDPO maintains two orthogonal optimization channels: an accuracy channel that maximizes task correctness, and an efficiency channel that enforces execution economy exclusively within accurate trajectories via conditional advantage estimation. This decoupled architecture naturally induces a cognitive curriculum-compelling the agent to first master task resolution before refining its self-reliance. Extensive evaluations demonstrate that our resulting model, Metis, reduces tool invocations by orders of magnitude while simultaneously elevating reasoning accuracy.
PDF281April 11, 2026