A^2FM: Ein adaptives Agenten-Foundation-Modell für werkzeugbewusstes hybrides Schließen
A^2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning
October 13, 2025
papers.authors: Qianben Chen, Jingyi Cao, Jiayu Zhang, Tianrui Qin, Xiaowan Li, King Zhu, Dingfeng Shi, He Zhu, Minghao Liu, Xiaobo Liang, Xin Gui, Ge Zhang, Jian Yang, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
papers.abstract
Große Sprachmodelle lassen sich in zwei Familien unterteilen: reasoning-zentrierte LLMs, die die interne Kettenfolge des Denkens stärken, jedoch keine externen Werkzeuge aufrufen können, und agentische LLMs, die lernen, mit Umgebungen zu interagieren und Werkzeuge zu nutzen, aber oft in tiefgreifendem Denken zurückbleiben. Diese Kluft entsteht durch grundlegend unterschiedliche Trainingsziele, was zu unausgewogenen Stärken und Ineffizienz bei einfachen Anfragen führt, bei denen beide Familien dazu neigen, zu viel nachzudenken oder zu viele Werkzeuge aufzurufen. In dieser Arbeit präsentieren wir das Adaptive Agent Foundation Model (A²FM), ein einheitliches Framework, das einem Route-then-Align-Prinzip folgt: Das Modell lernt zunächst aufgabenbewusstes Routing und richtet dann modusspezifische Trajektorien unter einer gemeinsamen Basis aus. Um die Ineffizienzlücke zu schließen, führen wir einen dritten Modus ein – den Instant-Modus –, der einfache Anfragen direkt bearbeitet und so unnötiges Denken oder Werkzeugaufrufe verhindert, während er die agentischen und reasoning-Modi ergänzt. Um Genauigkeit und Effizienz gemeinsam zu verbessern, schlagen wir die Adaptive Policy Optimization (APO) vor, die eine adaptive Stichprobenziehung über die Modi hinweg erzwingt und eine kostenregulierte Belohnung anwendet. Im Maßstab von 32B erreicht A²FM 13,4 % bei BrowseComp, 70,4 % bei AIME25 und 16,7 % bei HLE, was neue SOTA-Werte unter vergleichbaren Modellen setzt und sich wettbewerbsfähig mit führenden LLMs über agentische, reasoning- und allgemeine Benchmarks hinweg zeigt. Besonders bemerkenswert ist, dass die adaptive Ausführung Kosten von nur 0,00487 $ pro korrekter Antwort erreicht – eine Kostensenkung um 45,2 % im Vergleich zum reasoning-Modus und 33,5 % im Vergleich zum agentischen Modus – und somit eine deutlich höhere Kosteneffizienz bei vergleichbarer Genauigkeit liefert.
English
Large language models split into two families: reasoning-centric LLMs, which
strengthen internal chain-of-thought reasoning but cannot invoke external
tools, and agentic LLMs, which learn to interact with environments and leverage
tools but often lag in deep reasoning. This divide arises from fundamentally
different training objectives, leading to mismatched strengths and inefficiency
on simple queries, where both families tend to overthink or over-call tools. In
this work, we present Adaptive Agent Foundation Model (A^2FM), a unified
framework that follows a route-then-align principle: the model first learns
task-aware routing and then aligns mode-specific trajectories under a shared
backbone. To address the inefficiency gap, we introduce a third
mode-instant-that handles simple queries directly, preventing unnecessary
reasoning or tool calls while complementing the agentic and reasoning modes. To
jointly enhance accuracy and efficiency, we propose Adaptive Policy
Optimization (APO), which enforces adaptive sampling across modes and applies a
cost-regularized reward. On the 32B scale, A^2FM achieves 13.4% on
BrowseComp, 70.4% on AIME25, and 16.7% on HLE, setting new SOTA among
comparable models and performing competitively with frontier LLMs across
agentic, reasoning, and general benchmarks. Notably, the adaptive execution
achieves a cost of pass of only $0.00487 per correct answer-cutting cost by
45.2% relative to reasoning and 33.5% relative to agentic, thus delivering
substantially higher cost efficiency while maintaining comparable accuracy.