De la mise à l'échelle des modèles à la mise à l'échelle des systèmes : la mise à l'échelle du harnais dans l'IA agentique

Résumé

Cet article étudie le prochain goulot d'étranglement majeur de l'IA agentique comme étant le passage à l'échelle du système, et non seulement celui du modèle : la conception d'architectures auditable, persistante, modulaire et vérifiable autour des modèles de fondation. Nous appelons ce changement le passage à l'échelle du harnais, c'est-à-dire considérer la couche d'exécution structurée autour d'un modèle de fondation comme un objet de première classe pour la conception, l'évaluation et l'optimisation. Bien que les récents grands modèles de langage permettent aux agents d'utiliser des outils, de récupérer des informations, de maintenir une mémoire et d'exécuter des flux de travail à long horizon, l'évaluation reste largement centrée sur le modèle, réduisant souvent les agents à la réussite de la tâche finale tout en traitant la mémoire, la recherche, l'utilisation d'outils, l'orchestration, la vérification et la gouvernance comme des détails d'implémentation secondaires. Ce cadre est de plus en plus inadéquat car la performance de l'agent émerge de l'interaction entre le modèle de fondation, le substrat de mémoire, le constructeur de contexte, la couche de routage des compétences, la boucle d'orchestration, et la couche de vérification et de gouvernance. Ensemble, ces composants forment le harnais de l'agent, qui traduit la capacité du modèle en comportement agentique à long horizon. Nous étudions le passage à l'échelle du harnais à travers trois goulots d'étranglement fondamentaux : la gouvernance du contexte, la mémoire fiable et le routage dynamique des compétences, ainsi que les mécanismes d'orchestration et de gouvernance qui les coordonnent et les contraignent. Nous décrivons également un programme de recherche pour des benchmarks au niveau du harnais qui vont au-delà de la réussite ponctuelle d'une tâche pour mesurer la qualité de la trajectoire, l'hygiène de la mémoire, l'efficacité du contexte, la fidélité de la communication, le coût de vérification et l'évolution sécurisée dans le temps. Pour rendre la discussion concrète, nous développons CheetahClaws : https://github.com/SafeRL-Lab/cheetahclaws, un harnais de référence natif en Python, et le comparons avec Claude Code et OpenClaw. Notre affirmation principale est que les progrès futurs de l'IA agentique dépendront autant de la conception du système que de modèles de fondation plus puissants.

English

This paper studies the next major bottleneck in agentic AI as system scaling, not only model scaling: the design of auditable, persistent, modular, and verifiable architectures around foundation models. We refer to this shift as scaling the harness: treating the structured execution layer around a foundation model as a first-class object of design, evaluation, and optimization. Although recent large language models enable agents to use tools, retrieve information, maintain memory, and execute long-horizon workflows, evaluation remains largely model-centric, often reducing agents to final-task success while treating memory, retrieval, tool use, orchestration, verification, and governance as secondary implementation details. This framing is increasingly inadequate because agent performance emerges from the interaction among the foundation model, memory substrate, context constructor, skill-routing layer, orchestration loop, and verification-and-governance layer. Together, these components form the agent harness, which translates model capability into long-horizon agent behavior. We study scaling the harness through three core bottlenecks: context governance, trustworthy memory, and dynamic skill routing, together with the orchestration and governance mechanisms that coordinate and constrain them. We further outline a research agenda for harness-level benchmarks that go beyond one-shot task success to measure trajectory quality, memory hygiene, context efficiency, communication fidelity, verification cost, and safe evolution over time. To make the discussion concrete, we develop CheetahClaws: https://github.com/SafeRL-Lab/cheetahclaws, a Python-native reference harness, and compare it with Claude Code and OpenClaw. Our main claim is that future progress in agentic AI will depend as much on system design as on stronger foundation models.