Skalierung agentenbasierter Fähigkeiten, nicht des Kontexts: Effizientes Reinforcement Finetuning für große Werkzeugräume

Zusammenfassung

Agentische Systeme, die in großen Werkzeugökosystemen operieren, müssen langfristige Arbeitsabläufe unter schwacher oder nicht verifizierbarer Aufsicht planen und ausführen. Während Spitzenmodelle diese Herausforderungen durch Skalierung und große Kontextbudgets mildern, bleiben kleine Sprachmodelle (Small Language Models, SLMs) anfällig: unbedachtes Laden von Werkzeugen sättigt den Kontext, Ausführungsfehler summieren sich über die Zeit, und spärliche Belohnungen limitieren das Lernen. Wir stellen ATLAS vor, ein Reinforcement-Finetuning-Framework, das SLMs befähigt, effektiv in Umgebungen mit großem Werkzeugraum zu operieren, indem es lernt, wie Kontext erworben und Aktionen ausgeführt werden. Unser Ansatz leistet zwei wesentliche Beiträge. Erstens behandeln wir Kontextkontrolle und Ausführungsstruktur als erlernbare Entscheidungen, indem wir iteratives Werkzeugladen mit programmatischer Werkzeugorchestrierung kombinieren, um das Kontextwachstum zu begrenzen und langfristige Trajektorien zu stabilisieren. Zweitens schlagen wir rubrikbasiertes Reinforcement-Finetuning vor, das den Aufgaben-Erfolg in strukturierte, aufgabenspezifische Kriterien zerlegt und skalierbares Training mit kleinen Bewertungsmodellen ermöglicht. In MCP-Benchmarks erzielen diese Designentscheidungen große und konsistente Verbesserungen gegenüber generischen RL-Baselines, sodass ein 4B-SLM die Leistung von Spitzen-Agenten mit deutlich engeren Parameter- und Kontextbudgets annähernd erreicht.

English

Agentic systems operating over large tool ecosystems must plan and execute long-horizon workflows under weak or non-verifiable supervision. While frontier models mitigate these challenges through scale and large context budgets, small language models (SLMs) remain brittle: eager tool loading saturates context, execution errors compound over time, and sparse rewards limit learning. We introduce ATLAS, a reinforcement finetuning framework that enables SLMs to operate effectively in large-scale toolspace environments by learning how to acquire context and how to execute actions. Our approach makes two key contributions. First, we treat context control and execution structure as learnable decisions, combining iterative tool loading with programmatic tool orchestration to bound context growth and stabilize long-horizon trajectories. Second, we propose rubric-based reinforcement finetuning, which decomposes task success into structured, task-aligned criteria and enables scalable training using small judge models. Across MCP benchmarks, these design choices yield large and consistent gains over generic RL baselines, allowing a 4B SLM to approach frontier-agent performance under far tighter parameter and context budgets.

Skalierung agentenbasierter Fähigkeiten, nicht des Kontexts: Effizientes Reinforcement Finetuning für große Werkzeugräume

Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

Zusammenfassung

Support