ChatPaper.aiChatPaper

A^2FM: ツール認識型ハイブリッド推論のための適応型エージェント基盤モデル

A^2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning

October 13, 2025
著者: Qianben Chen, Jingyi Cao, Jiayu Zhang, Tianrui Qin, Xiaowan Li, King Zhu, Dingfeng Shi, He Zhu, Minghao Liu, Xiaobo Liang, Xin Gui, Ge Zhang, Jian Yang, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI

要旨

大規模言語モデルは、二つのファミリーに分かれる:推論中心のLLM(内部の連鎖的思考推論を強化するが外部ツールを呼び出せない)と、エージェント型LLM(環境との相互作用を学びツールを活用するが深い推論では遅れがち)である。この分断は、根本的に異なる訓練目的から生じ、単純なクエリにおいて両ファミリーが過剰に思考したりツールを過剰に呼び出したりするため、強みの不一致と非効率性を引き起こす。本研究では、Adaptive Agent Foundation Model (A^2FM)を提案する。これは、ルート・アラインメント原則に従う統一フレームワークであり、モデルはまずタスク対応のルーティングを学び、その後共有バックボーンの下でモード固有の軌跡を整列させる。非効率性のギャップに対処するため、第三のモード「インスタント」を導入し、単純なクエリを直接処理することで、不必要な推論やツール呼び出しを防ぎつつ、エージェント型と推論型のモードを補完する。精度と効率を同時に向上させるため、Adaptive Policy Optimization (APO)を提案する。これは、モード間での適応的サンプリングを強制し、コスト正則化された報酬を適用する。32Bスケールにおいて、A^2FMはBrowseCompで13.4%、AIME25で70.4%、HLEで16.7%を達成し、比較可能なモデルの中で新たなSOTAを樹立し、エージェント型、推論型、および一般的なベンチマークにおいてフロンティアLLMと競争力のある性能を示す。特に、適応的実行は正解あたりのコストを$0.00487に抑え、推論型に比べて45.2%、エージェント型に比べて33.5%のコスト削減を実現し、同等の精度を維持しながら大幅に高いコスト効率を提供する。
English
Large language models split into two families: reasoning-centric LLMs, which strengthen internal chain-of-thought reasoning but cannot invoke external tools, and agentic LLMs, which learn to interact with environments and leverage tools but often lag in deep reasoning. This divide arises from fundamentally different training objectives, leading to mismatched strengths and inefficiency on simple queries, where both families tend to overthink or over-call tools. In this work, we present Adaptive Agent Foundation Model (A^2FM), a unified framework that follows a route-then-align principle: the model first learns task-aware routing and then aligns mode-specific trajectories under a shared backbone. To address the inefficiency gap, we introduce a third mode-instant-that handles simple queries directly, preventing unnecessary reasoning or tool calls while complementing the agentic and reasoning modes. To jointly enhance accuracy and efficiency, we propose Adaptive Policy Optimization (APO), which enforces adaptive sampling across modes and applies a cost-regularized reward. On the 32B scale, A^2FM achieves 13.4% on BrowseComp, 70.4% on AIME25, and 16.7% on HLE, setting new SOTA among comparable models and performing competitively with frontier LLMs across agentic, reasoning, and general benchmarks. Notably, the adaptive execution achieves a cost of pass of only $0.00487 per correct answer-cutting cost by 45.2% relative to reasoning and 33.5% relative to agentic, thus delivering substantially higher cost efficiency while maintaining comparable accuracy.
PDF223October 20, 2025