ChatPaper.aiChatPaper

도구 공간 확장에 따른 에이전트 능력 확장, 맥락 확장 없이: 대규모 도구 공간을 위한 효율적 강화학습 미세조정

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

March 5, 2026
저자: Karan Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah
cs.AI

초록

대규모 도구 생태계에서 작동하는 에이전트 시스템은 약하거나 검증 불가능한 감독 하에 장기간 워크플로우를 계획하고 실행해야 합니다. 최첨단 모델들은 규모와 큰 컨텍스트 예산을 통해 이러한 문제를 완화하지만, 소형 언어 모델(SLM)은 여전히 취약합니다: 과도한 도구 로딩은 컨텍스트를 포화시키고, 실행 오류는 시간이 지남에 따라 누적되며, 희소한 보상은 학습을 제한합니다. 우리는 ATLAS를 소개합니다. 이는 강화 미세조정 프레임워크로, SLM이 컨텍스트를 획득하고 행동을 실행하는 방법을 학습하여 대규모 도구 공간 환경에서 효과적으로 작동할 수 있게 합니다. 우리의 접근 방식은 두 가지 주요 기여를 합니다. 첫째, 컨텍스트 제어와 실행 구조를 학습 가능한 결정으로 간주하여, 반복적인 도구 로딩과 프로그램 방식의 도구 오케스트레이션을 결합해 컨텍스트 증가를 제한하고 장기간 궤적을 안정화합니다. 둘째, 루브릭 기반 강화 미세조정을 제안합니다. 이는 작업 성공을 구조화되고 작업에 부합하는 기준으로 분해하고 소형 판단 모델을 사용한 확장 가능한 훈련을 가능하게 합니다. MCP 벤치마크 전반에서 이러한 설계 선택은 일반적인 RL 기준선 대비 크고 일관된 성능 향상을 가져와, 4B SLM이 훨씬 더 제한된 매개변수 및 컨텍스트 예산 내에서 최첨단 에이전트 성능에 근접할 수 있게 합니다.
English
Agentic systems operating over large tool ecosystems must plan and execute long-horizon workflows under weak or non-verifiable supervision. While frontier models mitigate these challenges through scale and large context budgets, small language models (SLMs) remain brittle: eager tool loading saturates context, execution errors compound over time, and sparse rewards limit learning. We introduce ATLAS, a reinforcement finetuning framework that enables SLMs to operate effectively in large-scale toolspace environments by learning how to acquire context and how to execute actions. Our approach makes two key contributions. First, we treat context control and execution structure as learnable decisions, combining iterative tool loading with programmatic tool orchestration to bound context growth and stabilize long-horizon trajectories. Second, we propose rubric-based reinforcement finetuning, which decomposes task success into structured, task-aligned criteria and enables scalable training using small judge models. Across MCP benchmarks, these design choices yield large and consistent gains over generic RL baselines, allowing a 4B SLM to approach frontier-agent performance under far tighter parameter and context budgets.
PDF153March 17, 2026