A^2FM: Een Adaptief Agent Fundamentmodel voor Gereedschapsbewust Hybride Redeneren
A^2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning
October 13, 2025
Auteurs: Qianben Chen, Jingyi Cao, Jiayu Zhang, Tianrui Qin, Xiaowan Li, King Zhu, Dingfeng Shi, He Zhu, Minghao Liu, Xiaobo Liang, Xin Gui, Ge Zhang, Jian Yang, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
Samenvatting
Grote taalmodellen vallen uiteen in twee families: redeneringsgerichte LLM's, die de interne keten-van-gedachten-redenering versterken maar geen externe tools kunnen aanroepen, en agentische LLM's, die leren om te interageren met omgevingen en tools te benutten, maar vaak achterblijven in diepe redenering. Deze kloof ontstaat door fundamenteel verschillende trainingsdoelen, wat leidt tot ongelijke sterktes en inefficiëntie bij eenvoudige queries, waarbij beide families de neiging hebben om te veel na te denken of te veel tools aan te roepen. In dit werk presenteren we het Adaptive Agent Foundation Model (A^2FM), een uniform raamwerk dat een routeer-dan-uitlijn-principe volgt: het model leert eerst taakbewuste routering en lijn vervolgens modus-specifieke trajecten uit onder een gedeelde backbone. Om de efficiëntiekloof aan te pakken, introduceren we een derde modus-instantie die eenvoudige queries direct afhandelt, waardoor onnodige redenering of toolaanroepen worden voorkomen, terwijl de agentische en redeneringsmodi worden aangevuld. Om zowel nauwkeurigheid als efficiëntie gezamenlijk te verbeteren, stellen we Adaptive Policy Optimization (APO) voor, die adaptieve steekproeven over modussen afdwingt en een kosten-gereguleerde beloning toepast. Op de 32B-schaal behaalt A^2FM 13,4% op BrowseComp, 70,4% op AIME25 en 16,7% op HLE, waarmee het nieuwe state-of-the-art resultaten bereikt onder vergelijkbare modellen en competitief presteert met toonaangevende LLM's over agentische, redenerings- en algemene benchmarks. Opmerkelijk is dat de adaptieve uitvoering een kostprijs van slechts $0,00487 per correct antwoord bereikt, wat de kosten met 45,2% vermindert ten opzichte van redenering en met 33,5% ten opzichte van agentisch, waardoor aanzienlijk hogere kostenefficiëntie wordt geleverd terwijl vergelijkbare nauwkeurigheid behouden blijft.
English
Large language models split into two families: reasoning-centric LLMs, which
strengthen internal chain-of-thought reasoning but cannot invoke external
tools, and agentic LLMs, which learn to interact with environments and leverage
tools but often lag in deep reasoning. This divide arises from fundamentally
different training objectives, leading to mismatched strengths and inefficiency
on simple queries, where both families tend to overthink or over-call tools. In
this work, we present Adaptive Agent Foundation Model (A^2FM), a unified
framework that follows a route-then-align principle: the model first learns
task-aware routing and then aligns mode-specific trajectories under a shared
backbone. To address the inefficiency gap, we introduce a third
mode-instant-that handles simple queries directly, preventing unnecessary
reasoning or tool calls while complementing the agentic and reasoning modes. To
jointly enhance accuracy and efficiency, we propose Adaptive Policy
Optimization (APO), which enforces adaptive sampling across modes and applies a
cost-regularized reward. On the 32B scale, A^2FM achieves 13.4% on
BrowseComp, 70.4% on AIME25, and 16.7% on HLE, setting new SOTA among
comparable models and performing competitively with frontier LLMs across
agentic, reasoning, and general benchmarks. Notably, the adaptive execution
achieves a cost of pass of only $0.00487 per correct answer-cutting cost by
45.2% relative to reasoning and 33.5% relative to agentic, thus delivering
substantially higher cost efficiency while maintaining comparable accuracy.