A^2FM: Um Modelo de Fundação de Agente Adaptativo para Raciocínio Híbrido com Consciência de Ferramentas
A^2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning
October 13, 2025
Autores: Qianben Chen, Jingyi Cao, Jiayu Zhang, Tianrui Qin, Xiaowan Li, King Zhu, Dingfeng Shi, He Zhu, Minghao Liu, Xiaobo Liang, Xin Gui, Ge Zhang, Jian Yang, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) dividem-se em duas famílias: os LLMs centrados em raciocínio, que fortalecem a cadeia de pensamento interna, mas não conseguem invocar ferramentas externas, e os LLMs agentes, que aprendem a interagir com ambientes e a utilizar ferramentas, mas frequentemente ficam aquém em raciocínio profundo. Essa divisão surge de objetivos de treinamento fundamentalmente diferentes, levando a pontos fortes desalinhados e ineficiência em consultas simples, onde ambas as famílias tendem a superanalisar ou a chamar ferramentas em excesso. Neste trabalho, apresentamos o Adaptive Agent Foundation Model (A^2FM), um framework unificado que segue o princípio de rotear e alinhar: o modelo primeiro aprende o roteamento consciente da tarefa e, em seguida, alinha trajetórias específicas de modo sob uma estrutura compartilhada. Para abordar a lacuna de ineficiência, introduzimos um terceiro modo - o modo instantâneo - que lida diretamente com consultas simples, evitando raciocínios ou chamadas de ferramentas desnecessárias, enquanto complementa os modos agente e de raciocínio. Para aprimorar conjuntamente a precisão e a eficiência, propomos a Otimização de Política Adaptativa (APO), que aplica amostragem adaptativa entre os modos e utiliza uma recompensa regularizada por custo. Na escala de 32B, o A^2FM alcança 13,4% no BrowseComp, 70,4% no AIME25 e 16,7% no HLE, estabelecendo novos recordes de estado da arte (SOTA) entre modelos comparáveis e desempenhando-se de forma competitiva com LLMs de ponta em benchmarks agentes, de raciocínio e gerais. Notavelmente, a execução adaptativa alcança um custo por resposta correta de apenas $0,00487 - reduzindo o custo em 45,2% em relação ao modo de raciocínio e em 33,5% em relação ao modo agente, proporcionando assim uma eficiência de custo substancialmente maior enquanto mantém uma precisão comparável.
English
Large language models split into two families: reasoning-centric LLMs, which
strengthen internal chain-of-thought reasoning but cannot invoke external
tools, and agentic LLMs, which learn to interact with environments and leverage
tools but often lag in deep reasoning. This divide arises from fundamentally
different training objectives, leading to mismatched strengths and inefficiency
on simple queries, where both families tend to overthink or over-call tools. In
this work, we present Adaptive Agent Foundation Model (A^2FM), a unified
framework that follows a route-then-align principle: the model first learns
task-aware routing and then aligns mode-specific trajectories under a shared
backbone. To address the inefficiency gap, we introduce a third
mode-instant-that handles simple queries directly, preventing unnecessary
reasoning or tool calls while complementing the agentic and reasoning modes. To
jointly enhance accuracy and efficiency, we propose Adaptive Policy
Optimization (APO), which enforces adaptive sampling across modes and applies a
cost-regularized reward. On the 32B scale, A^2FM achieves 13.4% on
BrowseComp, 70.4% on AIME25, and 16.7% on HLE, setting new SOTA among
comparable models and performing competitively with frontier LLMs across
agentic, reasoning, and general benchmarks. Notably, the adaptive execution
achieves a cost of pass of only $0.00487 per correct answer-cutting cost by
45.2% relative to reasoning and 33.5% relative to agentic, thus delivering
substantially higher cost efficiency while maintaining comparable accuracy.