FaSTA^* : Agent de trajectoire rapide-lente avec extraction de sous-routines pour une édition d'image multi-tours efficace
FaSTA^*: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing
June 26, 2025
Auteurs: Advait Gupta, Rishie Raj, Dang Nguyen, Tianyi Zhou
cs.AI
Résumé
Nous développons un agent neurosymbolique rentable pour résoudre des tâches complexes d'édition d'images en plusieurs étapes, telles que « Détectez le banc dans l'image tout en le recolorant en rose. De plus, supprimez le chat pour une vue plus claire et recolorer le mur en jaune. » Cet agent combine la planification rapide et de haut niveau des sous-tâches par les modèles de langage à grande échelle (LLMs) avec une recherche locale A^* lente, précise et basée sur l'utilisation d'outils pour chaque sous-tâche, afin de trouver un chemin d'outils rentable — une séquence d'appels à des outils d'IA. Pour réduire le coût de A^* sur des sous-tâches similaires, nous effectuons un raisonnement inductif sur les chemins d'outils précédemment réussis via les LLMs, afin d'extraire et d'affiner continuellement les sous-routines fréquemment utilisées et de les réutiliser comme nouveaux outils pour les tâches futures dans une planification rapide-lente adaptative. Dans cette approche, les sous-routines de haut niveau sont explorées en premier, et ce n'est que si elles échouent que la recherche A^* de bas niveau est activée. Les sous-routines symboliques réutilisables permettent de réduire considérablement les coûts d'exploration pour les mêmes types de sous-tâches appliquées à des images similaires, donnant naissance à un agent de chemin d'outils rapide-lente « FaSTA^* » : la planification rapide des sous-tâches suivie de la sélection de sous-routines basées sur des règles par sous-tâche est d'abord tentée par les LLMs, ce qui est censé couvrir la plupart des tâches, tandis que la recherche A^* lente n'est déclenchée que pour les sous-tâches nouvelles et complexes. En comparant avec les approches récentes d'édition d'images, nous démontrons que FaSTA^* est significativement plus efficace sur le plan computationnel tout en restant compétitif par rapport à l'état de l'art en termes de taux de réussite.
English
We develop a cost-efficient neurosymbolic agent to address challenging
multi-turn image editing tasks such as "Detect the bench in the image while
recoloring it to pink. Also, remove the cat for a clearer view and recolor the
wall to yellow.'' It combines the fast, high-level subtask planning by large
language models (LLMs) with the slow, accurate, tool-use, and local A^*
search per subtask to find a cost-efficient toolpath -- a sequence of calls to
AI tools. To save the cost of A^* on similar subtasks, we perform inductive
reasoning on previously successful toolpaths via LLMs to continuously
extract/refine frequently used subroutines and reuse them as new tools for
future tasks in an adaptive fast-slow planning, where the higher-level
subroutines are explored first, and only when they fail, the low-level A^*
search is activated. The reusable symbolic subroutines considerably save
exploration cost on the same types of subtasks applied to similar images,
yielding a human-like fast-slow toolpath agent "FaSTA^*'': fast subtask
planning followed by rule-based subroutine selection per subtask is attempted
by LLMs at first, which is expected to cover most tasks, while slow A^*
search is only triggered for novel and challenging subtasks. By comparing with
recent image editing approaches, we demonstrate FaSTA^* is significantly more
computationally efficient while remaining competitive with the state-of-the-art
baseline in terms of success rate.