ChatPaper.aiChatPaper

FaSTA^*: Agente per Percorsi Utensili Veloce-Lento con Estrazione di Sottoprocedure per un'Editing Efficace di Immagini a Più Passaggi

FaSTA^*: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

June 26, 2025
Autori: Advait Gupta, Rishie Raj, Dang Nguyen, Tianyi Zhou
cs.AI

Abstract

Sviluppiamo un agente neurosimbolico a basso costo per affrontare complesse attività di editing di immagini multi-turn, come "Rileva la panchina nell'immagine e ricolorala di rosa. Inoltre, rimuovi il gatto per una visione più chiara e ricolora il muro di giallo." Questo agente combina la pianificazione rapida e di alto livello dei sottocompiti da parte di modelli linguistici di grandi dimensioni (LLM) con l'uso lento, accurato e mirato di strumenti e la ricerca locale A^* per sottocompito, al fine di trovare un percorso strumentale a basso costo — una sequenza di chiamate a strumenti di intelligenza artificiale. Per ridurre il costo della ricerca A^* su sottocompiti simili, eseguiamo un ragionamento induttivo sui percorsi strumentali precedentemente riusciti tramite LLM, estraendo e perfezionando continuamente subroutine utilizzate frequentemente e riutilizzandole come nuovi strumenti per compiti futuri in una pianificazione adattiva veloce-lenta, in cui le subroutine di livello superiore vengono esplorate per prime, e solo quando falliscono, viene attivata la ricerca A^* di livello inferiore. Le subroutine simboliche riutilizzabili riducono notevolmente il costo di esplorazione per gli stessi tipi di sottocompiti applicati a immagini simili, dando vita a un agente di percorso strumentale veloce-lento "FaSTA^*" simile all'uomo: la pianificazione rapida dei sottocompiti seguita dalla selezione di subroutine basata su regole per sottocompito viene tentata inizialmente dagli LLM, che si prevede coprano la maggior parte dei compiti, mentre la ricerca lenta A^* viene attivata solo per sottocompiti nuovi e complessi. Confrontandoci con recenti approcci di editing di immagini, dimostriamo che FaSTA^* è significativamente più efficiente dal punto di vista computazionale, pur rimanendo competitivo con lo stato dell'arte in termini di tasso di successo.
English
We develop a cost-efficient neurosymbolic agent to address challenging multi-turn image editing tasks such as "Detect the bench in the image while recoloring it to pink. Also, remove the cat for a clearer view and recolor the wall to yellow.'' It combines the fast, high-level subtask planning by large language models (LLMs) with the slow, accurate, tool-use, and local A^* search per subtask to find a cost-efficient toolpath -- a sequence of calls to AI tools. To save the cost of A^* on similar subtasks, we perform inductive reasoning on previously successful toolpaths via LLMs to continuously extract/refine frequently used subroutines and reuse them as new tools for future tasks in an adaptive fast-slow planning, where the higher-level subroutines are explored first, and only when they fail, the low-level A^* search is activated. The reusable symbolic subroutines considerably save exploration cost on the same types of subtasks applied to similar images, yielding a human-like fast-slow toolpath agent "FaSTA^*'': fast subtask planning followed by rule-based subroutine selection per subtask is attempted by LLMs at first, which is expected to cover most tasks, while slow A^* search is only triggered for novel and challenging subtasks. By comparing with recent image editing approaches, we demonstrate FaSTA^* is significantly more computationally efficient while remaining competitive with the state-of-the-art baseline in terms of success rate.
PDF392June 27, 2025