ChatPaper.aiChatPaper

Agent conversationnel en langage naturel

Natural-Language Agent Harnesses

March 26, 2026
Auteurs: Linyue Pan, Lexiao Zou, Shuo Guo, Jingchen Ni, Hai-Tao Zheng
cs.AI

Résumé

Les performances des agents dépendent de plus en plus de l'ingénierie des infrastructures de contrôle, pourtant la conception de ces infrastructures est généralement enfouie dans le code des contrôleurs et des conventions spécifiques à l'exécution, ce qui rend difficile leur transfert, comparaison et étude en tant qu'objet scientifique. Nous nous demandons si la logique de contrôle de haut niveau d'une infrastructure d'agent peut plutôt être externalisée sous forme d'artefact exécutable portable. Nous présentons les infrastructures d'agents en langage naturel (Natural-Language Agent Harnesses - NLAHs), qui expriment le comportement de l'infrastructure dans un langage naturel modifiable, et l'environnement d'exécution intelligent (Intelligent Harness Runtime - IHR), un runtime partagé qui exécute ces infrastructures via des contrats explicites, des artefacts durables et des adaptateurs légers. Sur des benchmarks de programmation et d'utilisation informatique, nous menons des évaluations contrôlées de la viabilité opérationnelle, de l'ablation de modules et de la migration d'infrastructures du code vers le texte.
English
Agent performance increasingly depends on harness engineering, yet harness design is usually buried in controller code and runtime-specific conventions, making it hard to transfer, compare, and study as a scientific object. We ask whether the high-level control logic of an agent harness can instead be externalized as a portable executable artifact. We introduce Natural-Language Agent Harnesses (NLAHs), which express harness behavior in editable natural language, and Intelligent Harness Runtime (IHR), a shared runtime that executes these harnesses through explicit contracts, durable artifacts, and lightweight adapters. Across coding and computer-use benchmarks, we conduct controlled evaluations of operational viability, module ablation, and code-to-text harness migration.
PDF111March 31, 2026