ChatPaper.aiChatPaper

Découverte de compétences pour l'automatisation de scripts logiciels via des simulations hors ligne avec des LLM

Skill Discovery for Software Scripting Automation via Offline Simulations with LLMs

April 29, 2025
Auteurs: Paiheng Xu, Gang Wu, Xiang Chen, Tong Yu, Chang Xiao, Franck Dernoncourt, Tianyi Zhou, Wei Ai, Viswanathan Swaminathan
cs.AI

Résumé

Les interfaces de script permettent aux utilisateurs d'automatiser des tâches et de personnaliser les flux de travail logiciels, mais la création de scripts nécessite traditionnellement une expertise en programmation et une familiarité avec des API spécifiques, ce qui constitue un obstacle pour de nombreux utilisateurs. Bien que les modèles de langage de grande taille (LLMs) puissent générer du code à partir de requêtes en langage naturel, la génération de code en temps réel est fortement limitée en raison de code non vérifié, de risques de sécurité, de temps de réponse plus longs et de coûts de calcul plus élevés. Pour combler cet écart, nous proposons un cadre de simulation hors ligne pour constituer un ensemble de compétences spécifiques à un logiciel, une collection de scripts vérifiés, en exploitant les LLMs et les guides de script disponibles publiquement. Notre cadre comprend deux composants : (1) la création de tâches, utilisant une guidance fonctionnelle descendante et une exploration ascendante de la synergie des API pour générer des tâches utiles ; et (2) la génération de compétences avec essais, affinant et validant les scripts sur la base des retours d'exécution. Pour naviguer efficacement dans le vaste paysage des API, nous introduisons un modèle de prédiction de liens basé sur un réseau de neurones graphiques (GNN) pour capturer la synergie des API, permettant la génération de compétences impliquant des API sous-utilisées et élargissant la diversité de l'ensemble de compétences. Les expériences avec Adobe Illustrator démontrent que notre cadre améliore significativement les taux de réussite de l'automatisation, réduit le temps de réponse et économise les coûts de tokens en temps d'exécution par rapport à la génération de code en temps réel traditionnelle. Il s'agit de la première tentative d'utiliser les interfaces de script logiciel comme banc d'essai pour les systèmes basés sur les LLMs, mettant en lumière les avantages de tirer parti des retours d'exécution dans un environnement contrôlé et offrant des insights précieux sur l'alignement des capacités de l'IA avec les besoins des utilisateurs dans des domaines logiciels spécialisés.
English
Scripting interfaces enable users to automate tasks and customize software workflows, but creating scripts traditionally requires programming expertise and familiarity with specific APIs, posing barriers for many users. While Large Language Models (LLMs) can generate code from natural language queries, runtime code generation is severely limited due to unverified code, security risks, longer response times, and higher computational costs. To bridge the gap, we propose an offline simulation framework to curate a software-specific skillset, a collection of verified scripts, by exploiting LLMs and publicly available scripting guides. Our framework comprises two components: (1) task creation, using top-down functionality guidance and bottom-up API synergy exploration to generate helpful tasks; and (2) skill generation with trials, refining and validating scripts based on execution feedback. To efficiently navigate the extensive API landscape, we introduce a Graph Neural Network (GNN)-based link prediction model to capture API synergy, enabling the generation of skills involving underutilized APIs and expanding the skillset's diversity. Experiments with Adobe Illustrator demonstrate that our framework significantly improves automation success rates, reduces response time, and saves runtime token costs compared to traditional runtime code generation. This is the first attempt to use software scripting interfaces as a testbed for LLM-based systems, highlighting the advantages of leveraging execution feedback in a controlled environment and offering valuable insights into aligning AI capabilities with user needs in specialized software domains.

Summary

AI-Generated Summary

PDF41May 4, 2025