ChatPaper.aiChatPaper

환경 확장을 통한 일반적인 에이전트 지능 향상

Towards General Agentic Intelligence via Environment Scaling

September 16, 2025
저자: Runnan Fang, Shihao Cai, Baixuan Li, Jialong Wu, Guangyu Li, Wenbiao Yin, Xinyu Wang, Xiaobin Wang, Liangcai Su, Zhen Zhang, Shibin Wu, Zhengwei Tao, Yong Jiang, Pengjun Xie, Fei Huang, Jingren Zhou
cs.AI

초록

고급 에이전트 지능은 대규모 언어 모델을 실제 현실 세계의 애플리케이션에 배포하기 위한 필수 조건입니다. 다양한 현실 세계의 API는 정밀하고 견고한 함수 호출 지능을 요구하며, 이는 에이전트가 다양한 환경에서 상호작용을 통해 이러한 능력을 개발해야 함을 의미합니다. 함수 호출 역량의 폭은 에이전트가 훈련받는 환경의 다양성과 밀접하게 연관되어 있습니다. 본 연구에서는 일반적인 에이전트 지능을 발전시키기 위한 한 단계로 환경을 확장합니다. 이는 두 가지 주요 과제를 제기합니다: (i) 원칙적으로 환경을 확장하는 방법, 그리고 (ii) 이러한 환경과의 상호작용을 통해 얻은 경험으로부터 에이전트 역량을 효과적으로 훈련시키는 방법입니다. 이를 해결하기 위해, 우리는 완전히 시뮬레이션된 이질적인 환경을 자동으로 구성하는 확장 가능한 프레임워크를 설계하여 함수 호출 시나리오의 공간을 체계적으로 확장합니다. 또한, 두 단계의 에이전트 미세 조정 전략을 적용합니다: 먼저 에이전트에 기본적인 에이전트 역량을 부여한 후, 특정 도메인 컨텍스트에 맞게 전문화합니다. 에이전트 벤치마크인 tau-bench, tau2-Bench, 그리고 ACEBench에서의 광범위한 실험을 통해 우리가 훈련한 모델인 AgentScaler가 모델의 함수 호출 능력을 크게 향상시킨다는 것을 입증합니다.
English
Advanced agentic intelligence is a prerequisite for deploying Large Language Models in practical, real-world applications. Diverse real-world APIs demand precise, robust function-calling intelligence, which needs agents to develop these capabilities through interaction in varied environments. The breadth of function-calling competence is closely tied to the diversity of environments in which agents are trained. In this work, we scale up environments as a step towards advancing general agentic intelligence. This gives rise to two central challenges: (i) how to scale environments in a principled manner, and (ii) how to effectively train agentic capabilities from experiences derived through interactions with these environments. To address these, we design a scalable framework that automatically constructs heterogeneous environments that are fully simulated, systematically broadening the space of function-calling scenarios. We further adapt a two-phase agent fine-tuning strategy: first endowing agents with fundamental agentic capabilities, then specializing them for domain-specific contexts. Extensive experiments on agentic benchmarks, tau-bench, tau2-Bench, and ACEBench, demonstrate that our trained model, AgentScaler, significantly enhances the function-calling capability of models.
PDF503September 17, 2025