Descubrimiento de Habilidades para la Automatización de Scripts de Software mediante Simulaciones Offline con Modelos de Lenguaje de Gran Escala
Skill Discovery for Software Scripting Automation via Offline Simulations with LLMs
April 29, 2025
Autores: Paiheng Xu, Gang Wu, Xiang Chen, Tong Yu, Chang Xiao, Franck Dernoncourt, Tianyi Zhou, Wei Ai, Viswanathan Swaminathan
cs.AI
Resumen
Las interfaces de scripting permiten a los usuarios automatizar tareas y personalizar flujos de trabajo de software, pero la creación de scripts tradicionalmente requiere conocimientos de programación y familiaridad con APIs específicas, lo que representa una barrera para muchos usuarios. Si bien los Modelos de Lenguaje de Gran Escala (LLMs) pueden generar código a partir de consultas en lenguaje natural, la generación de código en tiempo de ejecución está severamente limitada debido a código no verificado, riesgos de seguridad, tiempos de respuesta más largos y mayores costos computacionales. Para cerrar esta brecha, proponemos un marco de simulación offline para curar un conjunto de habilidades específicas de software, una colección de scripts verificados, aprovechando LLMs y guías de scripting disponibles públicamente. Nuestro marco consta de dos componentes: (1) creación de tareas, utilizando orientación funcional de arriba hacia abajo y exploración de sinergias de API de abajo hacia arriba para generar tareas útiles; y (2) generación de habilidades con pruebas, refinando y validando scripts basados en retroalimentación de ejecución. Para navegar eficientemente el extenso panorama de APIs, introducimos un modelo de predicción de enlaces basado en Redes Neuronales de Grafos (GNN) para capturar sinergias entre APIs, permitiendo la generación de habilidades que involucren APIs subutilizadas y expandiendo la diversidad del conjunto de habilidades. Experimentos con Adobe Illustrator demuestran que nuestro marco mejora significativamente las tasas de éxito en la automatización, reduce el tiempo de respuesta y ahorra costos de tokens en tiempo de ejecución en comparación con la generación tradicional de código en tiempo de ejecución. Este es el primer intento de utilizar interfaces de scripting de software como banco de pruebas para sistemas basados en LLMs, destacando las ventajas de aprovechar la retroalimentación de ejecución en un entorno controlado y ofreciendo valiosas ideas sobre cómo alinear las capacidades de la IA con las necesidades de los usuarios en dominios de software especializados.
English
Scripting interfaces enable users to automate tasks and customize software
workflows, but creating scripts traditionally requires programming expertise
and familiarity with specific APIs, posing barriers for many users. While Large
Language Models (LLMs) can generate code from natural language queries, runtime
code generation is severely limited due to unverified code, security risks,
longer response times, and higher computational costs. To bridge the gap, we
propose an offline simulation framework to curate a software-specific skillset,
a collection of verified scripts, by exploiting LLMs and publicly available
scripting guides. Our framework comprises two components: (1) task creation,
using top-down functionality guidance and bottom-up API synergy exploration to
generate helpful tasks; and (2) skill generation with trials, refining and
validating scripts based on execution feedback. To efficiently navigate the
extensive API landscape, we introduce a Graph Neural Network (GNN)-based link
prediction model to capture API synergy, enabling the generation of skills
involving underutilized APIs and expanding the skillset's diversity.
Experiments with Adobe Illustrator demonstrate that our framework significantly
improves automation success rates, reduces response time, and saves runtime
token costs compared to traditional runtime code generation. This is the first
attempt to use software scripting interfaces as a testbed for LLM-based
systems, highlighting the advantages of leveraging execution feedback in a
controlled environment and offering valuable insights into aligning AI
capabilities with user needs in specialized software domains.Summary
AI-Generated Summary