A^2FM: Un Modello Fondamentale Adattivo per Agenti con Ragionamento Ibrido Consapevole degli Strumenti
A^2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning
October 13, 2025
Autori: Qianben Chen, Jingyi Cao, Jiayu Zhang, Tianrui Qin, Xiaowan Li, King Zhu, Dingfeng Shi, He Zhu, Minghao Liu, Xiaobo Liang, Xin Gui, Ge Zhang, Jian Yang, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
Abstract
I grandi modelli linguistici si dividono in due famiglie: i LLM centrati sul ragionamento, che rafforzano il ragionamento interno a catena di pensiero ma non possono invocare strumenti esterni, e i LLM agentici, che imparano a interagire con l'ambiente e a sfruttare strumenti ma spesso sono carenti nel ragionamento profondo. Questa divisione deriva da obiettivi di formazione fondamentalmente diversi, portando a punti di forza non allineati e inefficienza su query semplici, dove entrambe le famiglie tendono a sovrapensare o a utilizzare eccessivamente gli strumenti. In questo lavoro, presentiamo il Modello Fondamentale Agente Adattivo (A^2FM), un framework unificato che segue un principio di instradamento e allineamento: il modello prima impara l'instradamento consapevole del compito e poi allinea le traiettorie specifiche del modo sotto un'architettura condivisa. Per affrontare il divario di inefficienza, introduciamo una terza modalità istantanea che gestisce direttamente le query semplici, prevenendo ragionamenti o chiamate a strumenti non necessari mentre integra le modalità agentica e di ragionamento. Per migliorare congiuntamente accuratezza ed efficienza, proponiamo l'Ottimizzazione della Politica Adattiva (APO), che impone un campionamento adattivo tra le modalità e applica una ricompensa regolarizzata in base al costo. Su scala 32B, A^2FM raggiunge il 13,4% su BrowseComp, il 70,4% su AIME25 e il 16,7% su HLE, stabilendo nuovi record SOTA tra i modelli comparabili e competendo con i LLM di frontiera su benchmark agentici, di ragionamento e generali. In particolare, l'esecuzione adattiva raggiunge un costo di passaggio di soli $0,00487 per risposta corretta, riducendo i costi del 45,2% rispetto al ragionamento e del 33,5% rispetto alla modalità agentica, offrendo così un'efficienza di costo sostanzialmente maggiore mantenendo un'accuratezza comparabile.
English
Large language models split into two families: reasoning-centric LLMs, which
strengthen internal chain-of-thought reasoning but cannot invoke external
tools, and agentic LLMs, which learn to interact with environments and leverage
tools but often lag in deep reasoning. This divide arises from fundamentally
different training objectives, leading to mismatched strengths and inefficiency
on simple queries, where both families tend to overthink or over-call tools. In
this work, we present Adaptive Agent Foundation Model (A^2FM), a unified
framework that follows a route-then-align principle: the model first learns
task-aware routing and then aligns mode-specific trajectories under a shared
backbone. To address the inefficiency gap, we introduce a third
mode-instant-that handles simple queries directly, preventing unnecessary
reasoning or tool calls while complementing the agentic and reasoning modes. To
jointly enhance accuracy and efficiency, we propose Adaptive Policy
Optimization (APO), which enforces adaptive sampling across modes and applies a
cost-regularized reward. On the 32B scale, A^2FM achieves 13.4% on
BrowseComp, 70.4% on AIME25, and 16.7% on HLE, setting new SOTA among
comparable models and performing competitively with frontier LLMs across
agentic, reasoning, and general benchmarks. Notably, the adaptive execution
achieves a cost of pass of only $0.00487 per correct answer-cutting cost by
45.2% relative to reasoning and 33.5% relative to agentic, thus delivering
substantially higher cost efficiency while maintaining comparable accuracy.