ChatPaper.aiChatPaper

Descoberta de Habilidades para Automação de Scripts de Software por meio de Simulações Offline com LLMs

Skill Discovery for Software Scripting Automation via Offline Simulations with LLMs

April 29, 2025
Autores: Paiheng Xu, Gang Wu, Xiang Chen, Tong Yu, Chang Xiao, Franck Dernoncourt, Tianyi Zhou, Wei Ai, Viswanathan Swaminathan
cs.AI

Resumo

Interfaces de script permitem que os usuários automatizem tarefas e personalizem fluxos de trabalho de software, mas a criação de scripts tradicionalmente exige conhecimento de programação e familiaridade com APIs específicas, o que impõe barreiras para muitos usuários. Embora os Modelos de Linguagem de Grande Escala (LLMs) possam gerar código a partir de consultas em linguagem natural, a geração de código em tempo de execução é severamente limitada devido a código não verificado, riscos de segurança, tempos de resposta mais longos e custos computacionais mais elevados. Para preencher essa lacuna, propomos um framework de simulação offline para criar um conjunto de habilidades específico para software, uma coleção de scripts verificados, explorando LLMs e guias de script disponíveis publicamente. Nosso framework consiste em dois componentes: (1) criação de tarefas, usando orientação funcional de cima para baixo e exploração de sinergia de APIs de baixo para cima para gerar tarefas úteis; e (2) geração de habilidades com tentativas, refinando e validando scripts com base no feedback de execução. Para navegar eficientemente pelo extenso cenário de APIs, introduzimos um modelo de previsão de links baseado em Redes Neurais de Grafos (GNN) para capturar a sinergia entre APIs, permitindo a geração de habilidades que envolvem APIs subutilizadas e expandindo a diversidade do conjunto de habilidades. Experimentos com o Adobe Illustrator demonstram que nosso framework melhora significativamente as taxas de sucesso na automação, reduz o tempo de resposta e economiza custos de tokens em tempo de execução em comparação com a geração tradicional de código em tempo de execução. Esta é a primeira tentativa de usar interfaces de script de software como um campo de teste para sistemas baseados em LLMs, destacando as vantagens de aproveitar o feedback de execução em um ambiente controlado e oferecendo insights valiosos sobre o alinhamento das capacidades de IA com as necessidades dos usuários em domínios de software especializados.
English
Scripting interfaces enable users to automate tasks and customize software workflows, but creating scripts traditionally requires programming expertise and familiarity with specific APIs, posing barriers for many users. While Large Language Models (LLMs) can generate code from natural language queries, runtime code generation is severely limited due to unverified code, security risks, longer response times, and higher computational costs. To bridge the gap, we propose an offline simulation framework to curate a software-specific skillset, a collection of verified scripts, by exploiting LLMs and publicly available scripting guides. Our framework comprises two components: (1) task creation, using top-down functionality guidance and bottom-up API synergy exploration to generate helpful tasks; and (2) skill generation with trials, refining and validating scripts based on execution feedback. To efficiently navigate the extensive API landscape, we introduce a Graph Neural Network (GNN)-based link prediction model to capture API synergy, enabling the generation of skills involving underutilized APIs and expanding the skillset's diversity. Experiments with Adobe Illustrator demonstrate that our framework significantly improves automation success rates, reduces response time, and saves runtime token costs compared to traditional runtime code generation. This is the first attempt to use software scripting interfaces as a testbed for LLM-based systems, highlighting the advantages of leveraging execution feedback in a controlled environment and offering valuable insights into aligning AI capabilities with user needs in specialized software domains.
PDF81May 4, 2025