Het Opschalen van Agentische Capaciteiten, Niet de Context: Efficiënte Afstemming via Versterkend Leren voor Grote Gereedschapsruimten

Samenvatting

Agentische systemen die opereren binnen grote tool-ecosystemen moeten workflows met een lange horizon plannen en uitvoeren onder zwakke of niet-verifieerbare supervisie. Hoewel frontier-modellen deze uitdagingen mitigeren door schaal en grote contextbudgetten, blijven kleine taalmodellen (SLM's) broos: gretig laden van tools verzadigt de context, uitvoeringsfouten stapelen zich op en schaarse beloningen beperken het leerproces. Wij introduceren ATLAS, een reinforcement finetuning-framework dat SLM's in staat stelt effectief te opereren in grootschalige toolspace-omgevingen door te leren hoe ze context moeten verwerven en acties moeten uitvoeren. Onze aanpak levert twee belangrijke bijdragen. Ten eerste behandelen we contextcontrole en uitvoeringsstructuur als leerbare beslissingen, waarbij we iteratief tool-laden combineren met programmatische tool-orchestratie om de contextgroei te begrenzen en trajecten met een lange horizon te stabiliseren. Ten tweede stellen we rubriekgebaseerde reinforcement finetuning voor, die tasksucces decomposeert in gestructureerde, task-uitgelijnde criteria en schaalbare training mogelijk maakt met behulp van kleine beoordelaarsmodellen. Op MCP-benchmarks leveren deze ontwerpkeuzes grote en consistente winsten op ten opzichte van generieke RL-baselines, waardoor een 4B-SLM de prestaties van frontier-agenten kan benaderen met aanzienlijk strengere parameter- en contextbudgetten.

English

Agentic systems operating over large tool ecosystems must plan and execute long-horizon workflows under weak or non-verifiable supervision. While frontier models mitigate these challenges through scale and large context budgets, small language models (SLMs) remain brittle: eager tool loading saturates context, execution errors compound over time, and sparse rewards limit learning. We introduce ATLAS, a reinforcement finetuning framework that enables SLMs to operate effectively in large-scale toolspace environments by learning how to acquire context and how to execute actions. Our approach makes two key contributions. First, we treat context control and execution structure as learnable decisions, combining iterative tool loading with programmatic tool orchestration to bound context growth and stabilize long-horizon trajectories. Second, we propose rubric-based reinforcement finetuning, which decomposes task success into structured, task-aligned criteria and enables scalable training using small judge models. Across MCP benchmarks, these design choices yield large and consistent gains over generic RL baselines, allowing a 4B SLM to approach frontier-agent performance under far tighter parameter and context budgets.

Het Opschalen van Agentische Capaciteiten, Niet de Context: Efficiënte Afstemming via Versterkend Leren voor Grote Gereedschapsruimten

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

Samenvatting

Support