ChatPaper.aiChatPaper

Scoperta di Competenze per l'Automazione di Script Software tramite Simulazioni Offline con LLM

Skill Discovery for Software Scripting Automation via Offline Simulations with LLMs

April 29, 2025
Autori: Paiheng Xu, Gang Wu, Xiang Chen, Tong Yu, Chang Xiao, Franck Dernoncourt, Tianyi Zhou, Wei Ai, Viswanathan Swaminathan
cs.AI

Abstract

Le interfacce di scripting consentono agli utenti di automatizzare attività e personalizzare i flussi di lavoro del software, ma la creazione di script richiede tradizionalmente competenze di programmazione e familiarità con API specifiche, rappresentando un ostacolo per molti utenti. Sebbene i Large Language Model (LLM) possano generare codice da query in linguaggio naturale, la generazione di codice in runtime è fortemente limitata a causa di codice non verificato, rischi per la sicurezza, tempi di risposta più lunghi e costi computazionali più elevati. Per colmare questa lacuna, proponiamo un framework di simulazione offline per curare un insieme di competenze specifiche per il software, una raccolta di script verificati, sfruttando i LLM e guide di scripting disponibili pubblicamente. Il nostro framework comprende due componenti: (1) creazione di attività, utilizzando una guida funzionale top-down e un'esplorazione sinergica delle API bottom-up per generare attività utili; e (2) generazione di competenze con prove, affinando e validando gli script in base al feedback di esecuzione. Per navigare in modo efficiente nel vasto panorama delle API, introduciamo un modello di previsione dei collegamenti basato su Graph Neural Network (GNN) per catturare la sinergia tra le API, consentendo la generazione di competenze che coinvolgono API sottoutilizzate e ampliando la diversità dell'insieme di competenze. Esperimenti condotti con Adobe Illustrator dimostrano che il nostro framework migliora significativamente i tassi di successo dell'automazione, riduce i tempi di risposta e risparmia i costi dei token in runtime rispetto alla tradizionale generazione di codice in runtime. Questo è il primo tentativo di utilizzare le interfacce di scripting del software come banco di prova per sistemi basati su LLM, evidenziando i vantaggi di sfruttare il feedback di esecuzione in un ambiente controllato e offrendo preziose intuizioni sull'allineamento delle capacità dell'AI con le esigenze degli utenti in domini software specializzati.
English
Scripting interfaces enable users to automate tasks and customize software workflows, but creating scripts traditionally requires programming expertise and familiarity with specific APIs, posing barriers for many users. While Large Language Models (LLMs) can generate code from natural language queries, runtime code generation is severely limited due to unverified code, security risks, longer response times, and higher computational costs. To bridge the gap, we propose an offline simulation framework to curate a software-specific skillset, a collection of verified scripts, by exploiting LLMs and publicly available scripting guides. Our framework comprises two components: (1) task creation, using top-down functionality guidance and bottom-up API synergy exploration to generate helpful tasks; and (2) skill generation with trials, refining and validating scripts based on execution feedback. To efficiently navigate the extensive API landscape, we introduce a Graph Neural Network (GNN)-based link prediction model to capture API synergy, enabling the generation of skills involving underutilized APIs and expanding the skillset's diversity. Experiments with Adobe Illustrator demonstrate that our framework significantly improves automation success rates, reduces response time, and saves runtime token costs compared to traditional runtime code generation. This is the first attempt to use software scripting interfaces as a testbed for LLM-based systems, highlighting the advantages of leveraging execution feedback in a controlled environment and offering valuable insights into aligning AI capabilities with user needs in specialized software domains.
PDF81May 4, 2025