A^2FM: Адаптивная базовая модель агента для гибридного рассуждения с учетом инструментов
A^2FM: An Adaptive Agent Foundation Model for Tool-Aware Hybrid Reasoning
October 13, 2025
Авторы: Qianben Chen, Jingyi Cao, Jiayu Zhang, Tianrui Qin, Xiaowan Li, King Zhu, Dingfeng Shi, He Zhu, Minghao Liu, Xiaobo Liang, Xin Gui, Ge Zhang, Jian Yang, Yuchen Eleanor Jiang, Wangchunshu Zhou
cs.AI
Аннотация
Крупные языковые модели делятся на два семейства: модели, ориентированные на рассуждения (reasoning-centric LLMs), которые усиливают внутреннюю цепочку рассуждений, но не могут использовать внешние инструменты, и агентные модели (agentic LLMs), которые учатся взаимодействовать с окружением и применять инструменты, но часто отстают в глубоких рассуждениях. Это разделение возникает из-за принципиально разных целей обучения, что приводит к несоответствию сильных сторон и неэффективности при обработке простых запросов, где обе модели склонны либо излишне рассуждать, либо чрезмерно использовать инструменты. В данной работе мы представляем Adaptive Agent Foundation Model (A^2FM) — унифицированную архитектуру, которая следует принципу "маршрутизация, затем согласование": модель сначала обучается маршрутизации с учетом задачи, а затем согласовывает траектории, специфичные для каждого режима, в рамках общей структуры. Чтобы устранить проблему неэффективности, мы вводим третий режим — мгновенный (instant), который напрямую обрабатывает простые запросы, предотвращая излишние рассуждения или вызовы инструментов, дополняя при этом агентный и рассуждающий режимы. Для совместного повышения точности и эффективности мы предлагаем Adaptive Policy Optimization (APO), которая обеспечивает адаптивную выборку между режимами и применяет вознаграждение с учетом затрат. На масштабе 32B A^2FM достигает 13,4% на BrowseComp, 70,4% на AIME25 и 16,7% на HLE, устанавливая новый SOTA среди сопоставимых моделей и демонстрируя конкурентоспособные результаты с передовыми LLM на агентных, рассуждающих и общих тестах. Примечательно, что адаптивное выполнение достигает стоимости прохода всего $0,00487 за правильный ответ, сокращая затраты на 45,2% по сравнению с рассуждающим режимом и на 33,5% по сравнению с агентным, что обеспечивает значительно более высокую экономическую эффективность при сохранении сопоставимой точности.
English
Large language models split into two families: reasoning-centric LLMs, which
strengthen internal chain-of-thought reasoning but cannot invoke external
tools, and agentic LLMs, which learn to interact with environments and leverage
tools but often lag in deep reasoning. This divide arises from fundamentally
different training objectives, leading to mismatched strengths and inefficiency
on simple queries, where both families tend to overthink or over-call tools. In
this work, we present Adaptive Agent Foundation Model (A^2FM), a unified
framework that follows a route-then-align principle: the model first learns
task-aware routing and then aligns mode-specific trajectories under a shared
backbone. To address the inefficiency gap, we introduce a third
mode-instant-that handles simple queries directly, preventing unnecessary
reasoning or tool calls while complementing the agentic and reasoning modes. To
jointly enhance accuracy and efficiency, we propose Adaptive Policy
Optimization (APO), which enforces adaptive sampling across modes and applies a
cost-regularized reward. On the 32B scale, A^2FM achieves 13.4% on
BrowseComp, 70.4% on AIME25, and 16.7% on HLE, setting new SOTA among
comparable models and performing competitively with frontier LLMs across
agentic, reasoning, and general benchmarks. Notably, the adaptive execution
achieves a cost of pass of only $0.00487 per correct answer-cutting cost by
45.2% relative to reasoning and 33.5% relative to agentic, thus delivering
substantially higher cost efficiency while maintaining comparable accuracy.