ChatPaper.aiChatPaper

Código como arnés de agentes

Code as Agent Harness

May 18, 2026
Autores: Xuying Ning, Katherine Tieu, Dongqi Fu, Tianxin Wei, Zihao Li, Yuanchen Bei, Jiaru Zou, Mengting Ai, Zhining Liu, Ting-Wei Li, Lingjie Chen, Yanjun Zhao, Ke Yang, Bingxuan Li, Cheng Qian, Gaotang Li, Xiao Lin, Zhichen Zeng, Ruizhong Qiu, Sirui Chen, Yifan Sun, Xiyuan Yang, Ruida Wang, Rui Pan, Chenyuan Yang, Dylan Zhang, Liri Fang, Zikun Cui, Yang Cao, Pan Chen, Dorothy Sun, Ren Chen, Mahesh Srinivasan, Nipun Mathur, Yinglong Xia, Hong Li, Hong Yan, Pan Lu, Lingming Zhang, Tong Zhang, Hanghang Tong, Jingrui He
cs.AI

Resumen

Recientes grandes modelos de lenguaje (LLMs) han demostrado capacidades sólidas en la comprensión y generación de código, desde programación competitiva hasta ingeniería de software a nivel de repositorio. En los emergentes sistemas agentivos, el código ya no es solo un resultado objetivo. Cada vez más, sirve como sustrato operativo para el razonamiento del agente, la acción, el modelado del entorno y la verificación basada en ejecución. Enmarcamos este cambio a través de la lente de los arneses de agente e introducimos el código como arnés de agente: una visión unificada que sitúa el código como base de la infraestructura del agente. Para estudiar sistemáticamente esta perspectiva, organizamos el estudio en torno a tres capas interconectadas. Primero, estudiamos la interfaz del arnés, donde el código conecta a los agentes con el razonamiento, la acción y el modelado del entorno. Segundo, examinamos los mecanismos del arnés: planificación, memoria y uso de herramientas para la ejecución a largo plazo, junto con el control y la optimización basados en retroalimentación que hacen que el arnés sea fiable y adaptable. Tercero, discutimos la escalabilidad del arnés desde sistemas de un solo agente hasta entornos multiagente, donde los artefactos de código compartido apoyan la coordinación, revisión y verificación entre múltiples agentes. A través de estas capas, resumimos métodos representativos y aplicaciones prácticas del código como arnés de agente, abarcando asistentes de codificación, automatización de GUI/SO, agentes encarnados, descubrimiento científico, personalización y recomendación, DevOps y flujos de trabajo empresariales. Además, esbozamos desafíos abiertos para la ingeniería de arneses, incluyendo la evaluación más allá del éxito final de la tarea, la verificación bajo retroalimentación incompleta, la mejora del arnés sin regresión, el estado compartido consistente entre múltiples agentes, la supervisión humana para acciones críticas de seguridad y las extensiones a entornos multimodales. Al centrar el código como el arnés de la IA agentiva, este estudio proporciona una hoja de ruta unificada hacia sistemas de agentes de IA ejecutables, verificables y con estado.
English
Recent large language models (LLMs) have demonstrated strong capabilities in understanding and generating code, from competitive programming to repository-level software engineering. In emerging agentic systems, code is no longer only a target output. It increasingly serves as an operational substrate for agent reasoning, acting, environment modeling, and execution-based verification. We frame this shift through the lens of agent harnesses and introduce code as agent harness: a unified view that centers code as the basis for agent infrastructure. To systematically study this perspective, we organize the survey around three connected layers. First, we study the harness interface, where code connects agents to reasoning, action, and environment modeling. Second, we examine harness mechanisms: planning, memory, and tool use for long-horizon execution, together with feedback-driven control and optimization that make harness reliable and adaptive. Third, we discuss scaling the harness from single-agent systems to multi-agent settings, where shared code artifacts support multi-agent coordination, review, and verification. Across these layers, we summarize representative methods and practical applications of code as agent harness, spanning coding assistants, GUI/OS automation, embodied agents, scientific discovery, personalization and recommendation, DevOps, and enterprise workflows. We further outline open challenges for harness engineering, including evaluation beyond final task success, verification under incomplete feedback, regression-free harness improvement, consistent shared state across multiple agents, human oversight for safety-critical actions, and extensions to multimodal environments. By centering code as the harness of agentic AI, this survey provides a unified roadmap toward executable, verifiable, and stateful AI agent systems.