環境スケーリングによる汎用エージェント知能へのアプローチ
Towards General Agentic Intelligence via Environment Scaling
September 16, 2025
著者: Runnan Fang, Shihao Cai, Baixuan Li, Jialong Wu, Guangyu Li, Wenbiao Yin, Xinyu Wang, Xiaobin Wang, Liangcai Su, Zhen Zhang, Shibin Wu, Zhengwei Tao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI
要旨
高度なエージェント的知能は、大規模言語モデルを実用的な現実世界のアプリケーションに展開するための前提条件です。多様な現実世界のAPIは、正確で堅牢な関数呼び出し知能を要求し、エージェントがさまざまな環境での相互作用を通じてこれらの能力を発展させる必要があります。関数呼び出し能力の広がりは、エージェントが訓練される環境の多様性と密接に関連しています。本研究では、一般的なエージェント的知能を進展させるための一歩として、環境のスケールアップを行います。これにより、二つの中心的な課題が生じます:(i) どのようにして原則に基づいて環境をスケールアップするか、(ii) これらの環境との相互作用から得られた経験を通じて、エージェント的能力を効果的に訓練するか。これらに対処するため、完全にシミュレートされた異種環境を自動的に構築し、関数呼び出しシナリオの空間を体系的に広げるスケーラブルなフレームワークを設計します。さらに、二段階のエージェント微調整戦略を採用します:まずエージェントに基本的なエージェント的能力を付与し、その後、ドメイン固有の文脈に特化させます。エージェント的ベンチマーク、tau-bench、tau2-Bench、およびACEBenchでの広範な実験により、我々の訓練済みモデルであるAgentScalerが、モデルの関数呼び出し能力を大幅に向上させることが実証されました。
English
Advanced agentic intelligence is a prerequisite for deploying Large Language
Models in practical, real-world applications. Diverse real-world APIs demand
precise, robust function-calling intelligence, which needs agents to develop
these capabilities through interaction in varied environments. The breadth of
function-calling competence is closely tied to the diversity of environments in
which agents are trained. In this work, we scale up environments as a step
towards advancing general agentic intelligence. This gives rise to two central
challenges: (i) how to scale environments in a principled manner, and (ii) how
to effectively train agentic capabilities from experiences derived through
interactions with these environments. To address these, we design a scalable
framework that automatically constructs heterogeneous environments that are
fully simulated, systematically broadening the space of function-calling
scenarios. We further adapt a two-phase agent fine-tuning strategy: first
endowing agents with fundamental agentic capabilities, then specializing them
for domain-specific contexts. Extensive experiments on agentic benchmarks,
tau-bench, tau2-Bench, and ACEBench, demonstrate that our trained model,
AgentScaler, significantly enhances the function-calling capability of models.