A^2FM : Un modèle de fondation d'agent adaptatif pour le raisonnement hybride conscient des outils
A^2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning
October 13, 2025
papers.authors: Qianben Chen, Jingyi Cao, Jiayu Zhang, Tianrui Qin, Xiaowan Li, King Zhu, Dingfeng Shi, He Zhu, Minghao Liu, Xiaobo Liang, Xin Gui, Ge Zhang, Jian Yang, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
papers.abstract
Les grands modèles de langage se divisent en deux familles : les LLM centrés sur le raisonnement, qui renforcent le raisonnement en chaîne de pensée interne mais ne peuvent pas invoquer d'outils externes, et les LLM agentiques, qui apprennent à interagir avec des environnements et à exploiter des outils mais sont souvent en retard dans le raisonnement approfondi. Cette division découle d'objectifs d'entraînement fondamentalement différents, conduisant à des forces mal alignées et à une inefficacité sur des requêtes simples, où les deux familles ont tendance à trop réfléchir ou à trop utiliser d'outils. Dans ce travail, nous présentons le modèle de base adaptatif d'agent (A^2FM), un cadre unifié qui suit un principe de routage puis d'alignement : le modèle apprend d'abord le routage adapté à la tâche, puis aligne les trajectoires spécifiques au mode sous une architecture partagée. Pour combler le fossé de l'inefficacité, nous introduisons un troisième mode instantané qui traite directement les requêtes simples, évitant un raisonnement ou des appels d'outils inutiles tout en complétant les modes agentique et de raisonnement. Pour améliorer conjointement la précision et l'efficacité, nous proposons l'optimisation de politique adaptative (APO), qui impose un échantillonnage adaptatif entre les modes et applique une récompense régularisée par le coût. À l'échelle de 32B, A^2FM atteint 13,4 % sur BrowseComp, 70,4 % sur AIME25 et 16,7 % sur HLE, établissant de nouveaux records parmi les modèles comparables et performant de manière compétitive avec les LLM de pointe sur des benchmarks agentiques, de raisonnement et généraux. Notamment, l'exécution adaptative atteint un coût de passage de seulement 0,00487 $ par réponse correcte, réduisant le coût de 45,2 % par rapport au raisonnement et de 33,5 % par rapport à l'agentique, offrant ainsi une efficacité de coût nettement supérieure tout en maintenant une précision comparable.
English
Large language models split into two families: reasoning-centric LLMs, which
strengthen internal chain-of-thought reasoning but cannot invoke external
tools, and agentic LLMs, which learn to interact with environments and leverage
tools but often lag in deep reasoning. This divide arises from fundamentally
different training objectives, leading to mismatched strengths and inefficiency
on simple queries, where both families tend to overthink or over-call tools. In
this work, we present Adaptive Agent Foundation Model (A^2FM), a unified
framework that follows a route-then-align principle: the model first learns
task-aware routing and then aligns mode-specific trajectories under a shared
backbone. To address the inefficiency gap, we introduce a third
mode-instant-that handles simple queries directly, preventing unnecessary
reasoning or tool calls while complementing the agentic and reasoning modes. To
jointly enhance accuracy and efficiency, we propose Adaptive Policy
Optimization (APO), which enforces adaptive sampling across modes and applies a
cost-regularized reward. On the 32B scale, A^2FM achieves 13.4% on
BrowseComp, 70.4% on AIME25, and 16.7% on HLE, setting new SOTA among
comparable models and performing competitively with frontier LLMs across
agentic, reasoning, and general benchmarks. Notably, the adaptive execution
achieves a cost of pass of only $0.00487 per correct answer-cutting cost by
45.2% relative to reasoning and 33.5% relative to agentic, thus delivering
substantially higher cost efficiency while maintaining comparable accuracy.