Del escalado de modelos al escalado de sistemas: Escalando el arnés en la IA agéntica

Resumen

Este artículo estudia el próximo gran cuello de botella en la IA agentiva como el escalado del sistema, no solo el escalado del modelo: el diseño de arquitecturas auditables, persistentes, modulares y verificables alrededor de modelos fundacionales. Denominamos a este cambio como escalado del arnés: tratar la capa de ejecución estructurada alrededor de un modelo fundacional como un objeto de primer orden en el diseño, la evaluación y la optimización. Aunque los modelos de lenguaje extenso recientes permiten que los agentes utilicen herramientas, recuperen información, mantengan memoria y ejecuten flujos de trabajo de largo horizonte, la evaluación sigue siendo en gran medida centrada en el modelo, reduciendo a menudo a los agentes al éxito de la tarea final, mientras que la memoria, la recuperación, el uso de herramientas, la orquestación, la verificación y la gobernanza se tratan como detalles de implementación secundarios. Este marco resulta cada vez más inadecuado porque el rendimiento del agente surge de la interacción entre el modelo fundacional, el sustrato de memoria, el constructor de contexto, la capa de enrutamiento de habilidades, el bucle de orquestación y la capa de verificación y gobernanza. En conjunto, estos componentes forman el arnés del agente, que traduce la capacidad del modelo en un comportamiento del agente de largo horizonte. Estudiamos el escalado del arnés a través de tres cuellos de botella centrales: la gobernanza del contexto, la memoria confiable y el enrutamiento dinámico de habilidades, junto con los mecanismos de orquestación y gobernanza que los coordinan y los limitan. Además, esbozamos una agenda de investigación para puntos de referencia a nivel de arnés que vayan más allá del éxito de una sola tarea para medir la calidad de la trayectoria, la higiene de la memoria, la eficiencia del contexto, la fidelidad de la comunicación, el costo de verificación y la evolución segura a lo largo del tiempo. Para hacer la discusión concreta, desarrollamos CheetahClaws: https://github.com/SafeRL-Lab/cheetahclaws, un arnés de referencia nativo en Python, y lo comparamos con Claude Code y OpenClaw. Nuestra afirmación principal es que el progreso futuro en la IA agentiva dependerá tanto del diseño del sistema como de modelos fundacionales más potentes.

English

This paper studies the next major bottleneck in agentic AI as system scaling, not only model scaling: the design of auditable, persistent, modular, and verifiable architectures around foundation models. We refer to this shift as scaling the harness: treating the structured execution layer around a foundation model as a first-class object of design, evaluation, and optimization. Although recent large language models enable agents to use tools, retrieve information, maintain memory, and execute long-horizon workflows, evaluation remains largely model-centric, often reducing agents to final-task success while treating memory, retrieval, tool use, orchestration, verification, and governance as secondary implementation details. This framing is increasingly inadequate because agent performance emerges from the interaction among the foundation model, memory substrate, context constructor, skill-routing layer, orchestration loop, and verification-and-governance layer. Together, these components form the agent harness, which translates model capability into long-horizon agent behavior. We study scaling the harness through three core bottlenecks: context governance, trustworthy memory, and dynamic skill routing, together with the orchestration and governance mechanisms that coordinate and constrain them. We further outline a research agenda for harness-level benchmarks that go beyond one-shot task success to measure trajectory quality, memory hygiene, context efficiency, communication fidelity, verification cost, and safe evolution over time. To make the discussion concrete, we develop CheetahClaws: https://github.com/SafeRL-Lab/cheetahclaws, a Python-native reference harness, and compare it with Claude Code and OpenClaw. Our main claim is that future progress in agentic AI will depend as much on system design as on stronger foundation models.