Auf dem Weg zu einer Wissenschaft der Skalierung von Agentensystemen

papers.abstract

Agenten, auf Sprachmodellen (LM) basierende Systeme, die in der Lage sind zu schlussfolgern, zu planen und zu handeln, werden zum dominanten Paradigma für KI-Anwendungen in der realen Welt. Trotz dieser weiten Verbreitung sind die Prinzipien, die ihre Leistung bestimmen, noch unzureichend erforscht, was Praktiker dazu veranlasst, sich eher auf Heuristiken als auf prinzipiengeleitete Designentscheidungen zu verlassen. Wir schließen diese Lücke, indem wir quantitative Skalierungsprinzipien für Agentensysteme ableiten. Wir evaluieren dies anhand von vier verschiedenen Benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft und Workbench. Unter Verwendung von fünf kanonischen Architekturen (Single, Independent, Centralized, Decentralized, Hybrid), die in drei LLM-Familien instanziiert wurden, führen wir eine kontrollierte Evaluation über 180 Konfigurationen mit standardisierten Tools und Token-Budgets durch. Wir leiten ein prädiktives Modell unter Verwendung empirischer Koordinationsmetriken ab, einschließlich Effizienz, Overhead, Fehlerverstärkung und Redundanz, das ein kreuzvalidiertes R²=0,513 erreicht. Wir identifizieren drei dominante Effekte: (1) einen Tool-Koordinations-Zielkonflikt: Unter festen Rechenbudgets leiden tool-intensive Aufgaben überproportional unter Multi-Agenten-Overhead. (2) eine Fähigkeitssättigung: Koordination bringt abnehmende oder negative Erträge (Beta=-0,408, p<0,001), sobald Einzelagenten-Baselines ~45 % überschreiten. (3) topologieabhängige Fehlerverstärkung: Unabhängige Agenten verstärken Fehler um das 17,2-fache durch ungeprüfte Propagation, während zentralisierte Koordination dies auf das 4,4-fache begrenzt. Zentralisierte Koordination verbessert die Leistung bei parallelisierbaren Aufgaben wie finanzieller Entscheidungsfindung um 80,9 %, während dezentrale Koordination bei dynamischer Webnavigation überzeugt (+9,2 % vs. +0,2 %). Bei sequenziellen Reasoning-Aufgaben jedoch verschlechterten alle Multi-Agenten-Varianten die Leistung um 39–70 %. Das Framework sagt die optimale Koordinationsstrategie für 87 % der zurückgehaltenen Konfigurationen voraus und liefert damit ein prädiktives Prinzip für die agentenbasierte Skalierung basierend auf messbaren Aufgabeneigenschaften.

English

Agents, language model (LM)-based systems that are capable of reasoning, planning, and acting are becoming the dominant paradigm for real-world AI applications. Despite this widespread adoption, the principles that determine their performance remain underexplored, leaving practitioners to rely on heuristics rather than principled design choices. We address this gap by deriving quantitative scaling principles for agent systems. We evaluate this across four diverse benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft, and Workbench. Using five canonical architectures (Single, Independent, Centralized, Decentralized, Hybrid) instantiated across three LLM families, we perform a controlled evaluation spanning 180 configurations with standardized tools and token budgets. We derive a predictive model using empirical coordination metrics, including efficiency, overhead, error amplification, and redundancy, that achieves cross-validated R^2=0.513. We identify three dominant effects: (1) a tool-coordination trade-off: under fixed computational budgets, tool-heavy tasks suffer disproportionately from multi-agent overhead. (2) a capability saturation: coordination yields diminishing or negative returns (beta=-0.408, p<0.001) once single-agent baselines exceed ~45%. (3) topology-dependent error amplification: independent agents amplify errors 17.2x through unchecked propagation, while centralized coordination contains this to 4.4x. Centralized coordination improves performance by 80.9% on parallelizable tasks like financial reasoning, while decentralized coordination excels on dynamic web navigation (+9.2% vs. +0.2%). Yet for sequential reasoning tasks, all multi-agent variants degraded performance by 39-70%. The framework predicts the optimal coordination strategy for 87% of held-out configurations, providing a predictive principle of agentic scaling based on measurable task properties.

Auf dem Weg zu einer Wissenschaft der Skalierung von Agentensystemen

Towards a Science of Scaling Agent Systems

papers.abstract

Support