A^2FM: Un Modelo Fundacional de Agente Adaptativo para el Razonamiento Híbrido Consciente de Herramientas
A^2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning
October 13, 2025
Autores: Qianben Chen, Jingyi Cao, Jiayu Zhang, Tianrui Qin, Xiaowan Li, King Zhu, Dingfeng Shi, He Zhu, Minghao Liu, Xiaobo Liang, Xin Gui, Ge Zhang, Jian Yang, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
Resumen
Los modelos de lenguaje grande (LLM) se dividen en dos familias: los LLM centrados en el razonamiento, que fortalecen la cadena de pensamiento interna pero no pueden invocar herramientas externas, y los LLM agentes, que aprenden a interactuar con entornos y aprovechar herramientas, pero a menudo se rezagan en el razonamiento profundo. Esta división surge de objetivos de entrenamiento fundamentalmente diferentes, lo que conduce a fortalezas desajustadas e ineficiencia en consultas simples, donde ambas familias tienden a sobrepensar o a sobreutilizar herramientas. En este trabajo, presentamos el Modelo Base de Agente Adaptativo (A^2FM), un marco unificado que sigue un principio de ruteo y alineación: el modelo primero aprende el ruteo consciente de la tarea y luego alinea trayectorias específicas del modo bajo una columna vertebral compartida. Para abordar la brecha de ineficiencia, introducimos un tercer modo-instantáneo- que maneja consultas simples directamente, evitando razonamientos innecesarios o llamadas a herramientas, mientras complementa los modos agentes y de razonamiento. Para mejorar conjuntamente la precisión y la eficiencia, proponemos la Optimización de Política Adaptativa (APO), que aplica un muestreo adaptativo entre modos y utiliza una recompensa regularizada por costos. En la escala de 32B, A^2FM alcanza un 13.4% en BrowseComp, un 70.4% en AIME25 y un 16.7% en HLE, estableciendo nuevos estándares de referencia (SOTA) entre modelos comparables y desempeñándose de manera competitiva con los LLM de vanguardia en pruebas agentes, de razonamiento y generales. Notablemente, la ejecución adaptativa logra un costo de paso de solo $0.00487 por respuesta correcta, reduciendo el costo en un 45.2% en comparación con el modo de razonamiento y en un 33.5% en comparación con el modo agente, ofreciendo así una eficiencia de costos sustancialmente mayor mientras mantiene una precisión comparable.
English
Large language models split into two families: reasoning-centric LLMs, which
strengthen internal chain-of-thought reasoning but cannot invoke external
tools, and agentic LLMs, which learn to interact with environments and leverage
tools but often lag in deep reasoning. This divide arises from fundamentally
different training objectives, leading to mismatched strengths and inefficiency
on simple queries, where both families tend to overthink or over-call tools. In
this work, we present Adaptive Agent Foundation Model (A^2FM), a unified
framework that follows a route-then-align principle: the model first learns
task-aware routing and then aligns mode-specific trajectories under a shared
backbone. To address the inefficiency gap, we introduce a third
mode-instant-that handles simple queries directly, preventing unnecessary
reasoning or tool calls while complementing the agentic and reasoning modes. To
jointly enhance accuracy and efficiency, we propose Adaptive Policy
Optimization (APO), which enforces adaptive sampling across modes and applies a
cost-regularized reward. On the 32B scale, A^2FM achieves 13.4% on
BrowseComp, 70.4% on AIME25, and 16.7% on HLE, setting new SOTA among
comparable models and performing competitively with frontier LLMs across
agentic, reasoning, and general benchmarks. Notably, the adaptive execution
achieves a cost of pass of only $0.00487 per correct answer-cutting cost by
45.2% relative to reasoning and 33.5% relative to agentic, thus delivering
substantially higher cost efficiency while maintaining comparable accuracy.