A^2FM: 도구 인식형 하이브리드 추론을 위한 적응형 에이전트 기초 모델
A^2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning
October 13, 2025
저자: Qianben Chen, Jingyi Cao, Jiayu Zhang, Tianrui Qin, Xiaowan Li, King Zhu, Dingfeng Shi, He Zhu, Minghao Liu, Xiaobo Liang, Xin Gui, Ge Zhang, Jian Yang, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
초록
대형 언어 모델은 크게 두 가지 계열로 나뉩니다: 내부적인 사고 연쇄 추론을 강화하지만 외부 도구를 호출할 수 없는 추론 중심 LLM과, 환경과 상호작용하며 도구를 활용하는 방법을 학습하지만 깊은 추론에서는 종종 뒤처지는 에이전트형 LLM입니다. 이러한 분리는 근본적으로 다른 훈련 목표에서 비롯되며, 단순한 질의에서 두 계열 모두 과도한 사고 또는 도구 호출을 하는 경향으로 인해 강점이 불일치하고 비효율성을 초래합니다. 본 연구에서는 '경로 설정 후 정렬' 원칙을 따르는 통합 프레임워크인 Adaptive Agent Foundation Model(A^2FM)을 제안합니다. 이 모델은 먼저 작업 인식 라우팅을 학습한 후 공유 백본 하에서 모드별 궤적을 정렬합니다. 비효율성 문제를 해결하기 위해, 단순 질의를 직접 처리하는 세 번째 모드인 '즉시 모드'를 도입하여 불필요한 추론이나 도구 호출을 방지하면서 에이전트형 및 추론 모드를 보완합니다. 정확도와 효율성을 동시에 향상시키기 위해, 모드 간 적응형 샘플링을 강제하고 비용 정규화 보상을 적용하는 Adaptive Policy Optimization(APO)을 제안합니다. 32B 규모에서 A^2FM은 BrowseComp에서 13.4%, AIME25에서 70.4%, HLE에서 16.7%를 달성하며, 비교 가능한 모델 중 새로운 SOTA를 기록하고 에이전트형, 추론, 일반 벤치마크에서 선두 LLM과 경쟁력 있는 성능을 보입니다. 특히, 적응형 실행은 정답당 $0.00487의 비용으로, 추론 대비 45.2%, 에이전트형 대비 33.5%의 비용 절감을 달성하여 비슷한 정확도를 유지하면서 상당히 높은 비용 효율성을 제공합니다.
English
Large language models split into two families: reasoning-centric LLMs, which
strengthen internal chain-of-thought reasoning but cannot invoke external
tools, and agentic LLMs, which learn to interact with environments and leverage
tools but often lag in deep reasoning. This divide arises from fundamentally
different training objectives, leading to mismatched strengths and inefficiency
on simple queries, where both families tend to overthink or over-call tools. In
this work, we present Adaptive Agent Foundation Model (A^2FM), a unified
framework that follows a route-then-align principle: the model first learns
task-aware routing and then aligns mode-specific trajectories under a shared
backbone. To address the inefficiency gap, we introduce a third
mode-instant-that handles simple queries directly, preventing unnecessary
reasoning or tool calls while complementing the agentic and reasoning modes. To
jointly enhance accuracy and efficiency, we propose Adaptive Policy
Optimization (APO), which enforces adaptive sampling across modes and applies a
cost-regularized reward. On the 32B scale, A^2FM achieves 13.4% on
BrowseComp, 70.4% on AIME25, and 16.7% on HLE, setting new SOTA among
comparable models and performing competitively with frontier LLMs across
agentic, reasoning, and general benchmarks. Notably, the adaptive execution
achieves a cost of pass of only $0.00487 per correct answer-cutting cost by
45.2% relative to reasoning and 33.5% relative to agentic, thus delivering
substantially higher cost efficiency while maintaining comparable accuracy.