Descubrimiento de Habilidades para la Automatización de Scripts de Software mediante Simulaciones Offline con Modelos de Lenguaje de Gran Escala

Resumen

Las interfaces de scripting permiten a los usuarios automatizar tareas y personalizar flujos de trabajo de software, pero la creación de scripts tradicionalmente requiere conocimientos de programación y familiaridad con APIs específicas, lo que representa una barrera para muchos usuarios. Si bien los Modelos de Lenguaje de Gran Escala (LLMs) pueden generar código a partir de consultas en lenguaje natural, la generación de código en tiempo de ejecución está severamente limitada debido a código no verificado, riesgos de seguridad, tiempos de respuesta más largos y mayores costos computacionales. Para cerrar esta brecha, proponemos un marco de simulación offline para curar un conjunto de habilidades específicas de software, una colección de scripts verificados, aprovechando LLMs y guías de scripting disponibles públicamente. Nuestro marco consta de dos componentes: (1) creación de tareas, utilizando orientación funcional de arriba hacia abajo y exploración de sinergias de API de abajo hacia arriba para generar tareas útiles; y (2) generación de habilidades con pruebas, refinando y validando scripts basados en retroalimentación de ejecución. Para navegar eficientemente el extenso panorama de APIs, introducimos un modelo de predicción de enlaces basado en Redes Neuronales de Grafos (GNN) para capturar sinergias entre APIs, permitiendo la generación de habilidades que involucren APIs subutilizadas y expandiendo la diversidad del conjunto de habilidades. Experimentos con Adobe Illustrator demuestran que nuestro marco mejora significativamente las tasas de éxito en la automatización, reduce el tiempo de respuesta y ahorra costos de tokens en tiempo de ejecución en comparación con la generación tradicional de código en tiempo de ejecución. Este es el primer intento de utilizar interfaces de scripting de software como banco de pruebas para sistemas basados en LLMs, destacando las ventajas de aprovechar la retroalimentación de ejecución en un entorno controlado y ofreciendo valiosas ideas sobre cómo alinear las capacidades de la IA con las necesidades de los usuarios en dominios de software especializados.

English

Scripting interfaces enable users to automate tasks and customize software workflows, but creating scripts traditionally requires programming expertise and familiarity with specific APIs, posing barriers for many users. While Large Language Models (LLMs) can generate code from natural language queries, runtime code generation is severely limited due to unverified code, security risks, longer response times, and higher computational costs. To bridge the gap, we propose an offline simulation framework to curate a software-specific skillset, a collection of verified scripts, by exploiting LLMs and publicly available scripting guides. Our framework comprises two components: (1) task creation, using top-down functionality guidance and bottom-up API synergy exploration to generate helpful tasks; and (2) skill generation with trials, refining and validating scripts based on execution feedback. To efficiently navigate the extensive API landscape, we introduce a Graph Neural Network (GNN)-based link prediction model to capture API synergy, enabling the generation of skills involving underutilized APIs and expanding the skillset's diversity. Experiments with Adobe Illustrator demonstrate that our framework significantly improves automation success rates, reduces response time, and saves runtime token costs compared to traditional runtime code generation. This is the first attempt to use software scripting interfaces as a testbed for LLM-based systems, highlighting the advantages of leveraging execution feedback in a controlled environment and offering valuable insights into aligning AI capabilities with user needs in specialized software domains.

Descubrimiento de Habilidades para la Automatización de Scripts de Software mediante Simulaciones Offline con Modelos de Lenguaje de Gran Escala

Skill Discovery for Software Scripting Automation via Offline Simulations with LLMs

Resumen

Support