Hacia una ciencia de la escalabilidad de sistemas de agentes

Resumen

Los agentes, sistemas basados en modelos de lenguaje (LM) capaces de razonar, planificar y actuar, se están convirtiendo en el paradigma dominante para las aplicaciones de IA del mundo real. A pesar de esta adopción generalizada, los principios que determinan su rendimiento siguen sin explorarse suficientemente, lo que lleva a los profesionales a depender de heurísticas en lugar de decisiones de diseño fundamentadas. Abordamos esta brecha derivando principios de escalado cuantitativos para sistemas de agentes. Evaluamos esto en cuatro benchmarks diversos: Finance-Agent, BrowseComp-Plus, PlanCraft y Workbench. Utilizando cinco arquitecturas canónicas (Única, Independiente, Centralizada, Descentralizada, Híbrida) instanciadas en tres familias de LLM, realizamos una evaluación controlada que abarca 180 configuraciones con herramientas y presupuestos de tokens estandarizados. Derivamos un modelo predictivo utilizando métricas empíricas de coordinación, incluyendo eficiencia, sobrecarga, amplificación de errores y redundancia, que alcanza un R² validado cruzadamente de 0.513. Identificamos tres efectos dominantes: (1) una compensación herramienta-coordinación: bajo presupuestos computacionales fijos, las tareas que requieren muchas herramientas sufren desproporcionadamente por la sobrecarga multiagente. (2) una saturación de capacidad: la coordinación produce rendimientos decrecientes o negativos (beta=-0.408, p<0.001) una vez que los baselines de agente único superan ~45%. (3) una amplificación de errores dependiente de la topología: los agentes independientes amplifican los errores 17.2 veces mediante propagación no verificada, mientras que la coordinación centralizada lo contiene a 4.4 veces. La coordinación centralizada mejora el rendimiento en un 80.9% en tareas paralelizables como el razonamiento financiero, mientras que la coordinación descentralizada sobresale en la navegación web dinámica (+9.2% vs. +0.2%). Sin embargo, para tareas de razonamiento secuencial, todas las variantes multiagente degradaron el rendimiento entre un 39% y un 70%. El marco predice la estrategia de coordinación óptima para el 87% de las configuraciones retenidas, proporcionando un principio predictivo de escalado agentivo basado en propiedades medibles de la tarea.

English

Agents, language model (LM)-based systems that are capable of reasoning, planning, and acting are becoming the dominant paradigm for real-world AI applications. Despite this widespread adoption, the principles that determine their performance remain underexplored, leaving practitioners to rely on heuristics rather than principled design choices. We address this gap by deriving quantitative scaling principles for agent systems. We evaluate this across four diverse benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft, and Workbench. Using five canonical architectures (Single, Independent, Centralized, Decentralized, Hybrid) instantiated across three LLM families, we perform a controlled evaluation spanning 180 configurations with standardized tools and token budgets. We derive a predictive model using empirical coordination metrics, including efficiency, overhead, error amplification, and redundancy, that achieves cross-validated R^2=0.513. We identify three dominant effects: (1) a tool-coordination trade-off: under fixed computational budgets, tool-heavy tasks suffer disproportionately from multi-agent overhead. (2) a capability saturation: coordination yields diminishing or negative returns (beta=-0.408, p<0.001) once single-agent baselines exceed ~45%. (3) topology-dependent error amplification: independent agents amplify errors 17.2x through unchecked propagation, while centralized coordination contains this to 4.4x. Centralized coordination improves performance by 80.9% on parallelizable tasks like financial reasoning, while decentralized coordination excels on dynamic web navigation (+9.2% vs. +0.2%). Yet for sequential reasoning tasks, all multi-agent variants degraded performance by 39-70%. The framework predicts the optimal coordination strategy for 87% of held-out configurations, providing a predictive principle of agentic scaling based on measurable task properties.

Hacia una ciencia de la escalabilidad de sistemas de agentes

Towards a Science of Scaling Agent Systems

Resumen

Support