Del Texto de Habilidad a la Estructura de Habilidad: La Representación Programación-Estructura-Lógica para Habilidades de Agentes

Resumen

Los agentes de LLM dependen cada vez más de habilidades reutilizables, paquetes de capacidades que combinan instrucciones, flujo de control, restricciones y llamadas a herramientas. Sin embargo, en la mayoría de los sistemas de agentes actuales, las habilidades aún se representan mediante artefactos con alto contenido textual, incluyendo documentos estilo SKILL.md y registros estructurados cuya evidencia utilizable por máquinas permanece incrustada principalmente en descripciones en lenguaje natural. Esto plantea un desafío para los sistemas de agentes centrados en habilidades: tanto la gestión de colecciones de habilidades como el uso de habilidades para apoyar al agente requieren razonar sobre interfaces de invocación, estructura de ejecución y efectos secundarios concretos que a menudo se entrelazan en una única superficie textual. Por lo tanto, una representación explícita del conocimiento de habilidades puede ayudar a que las máquinas adquieran y aprovechen estos artefactos más fácilmente. Basándonos en los Paquetes de Organización de Memoria, la Teoría de Guiones y la Dependencia Conceptual del trabajo clásico de Schank y Abelson sobre la representación del conocimiento lingüístico, presentamos lo que, hasta donde sabemos, es la primera representación estructurada para artefactos de habilidades de agentes que desentrelaña las señales de planificación a nivel de habilidad, la estructura de ejecución a nivel de escena y la evidencia lógica de acciones y uso de recursos: la representación Planificación-Estructural-Lógica (SSL). Instanciamos SSL con un normalizador basado en LLM y lo evaluamos en un corpus de habilidades en dos tareas, Descubrimiento de Habilidades y Evaluación de Riesgos, superando ampliamente a los baselines exclusivamente textuales: en Descubrimiento de Habilidades, SSL mejora la MRR de 0.573 a 0.707; en Evaluación de Riesgos, mejora el F1 macro de 0.744 a 0.787. Estos hallazgos revelan que una estructura explícita y fundamentada en la fuente hace que las habilidades de los agentes sean más fáciles de buscar y revisar. También sugieren que SSL se entiende mejor como un paso práctico hacia representaciones de habilidades más inspeccionables, reutilizables y operacionalmente accionables para sistemas de agentes, en lugar de como un estándar terminado o un mecanismo integral para gestionar y usar habilidades.

English

LLM agents increasingly rely on reusable skills, capability packages that combine instructions, control flow, constraints, and tool calls. In most current agent systems, however, skills are still represented by text-heavy artifacts, including SKILL.md-style documents and structured records whose machine-usable evidence remains embedded largely in natural-language descriptions. This poses a challenge for skill-centered agent systems: managing skill collections and using skills to support agent both require reasoning over invocation interfaces, execution structure, and concrete side effects that are often entangled in a single textual surface. An explicit representation of skill knowledge may therefore help make these artifacts easier for machines to acquire and leverage. Drawing on Memory Organization Packets, Script Theory, and Conceptual Dependency from Schank and Abelson's classical work on linguistic knowledge representation, we introduce what is, to our knowledge, the first structured representation for agent skill artifacts that disentangles skill-level scheduling signals, scene-level execution structure, and logic-level action and resource-use evidence: the Scheduling-Structural-Logical (SSL) representation. We instantiate SSL with an LLM-based normalizer and evaluate it on a corpus of skills in two tasks, Skill Discovery and Risk Assessment, and superiorly outperform the text-only baselines: in Skill Discovery, SSL improves MRR from 0.573 to 0.707; in Risk Assessment, it improves macro F1 from 0.744 to 0.787. These findings reveal that explicit, source-grounded structure makes agent skills easier to search and review. They also suggest that SSL is best understood as a practical step toward more inspectable, reusable, and operationally actionable skill representations for agent systems, rather than as a finished standard or an end-to-end mechanism for managing and using skills.

Del Texto de Habilidad a la Estructura de Habilidad: La Representación Programación-Estructura-Lógica para Habilidades de Agentes

From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills

Resumen

Support