CoSTAast: Agente per Percorsi Utensili Sensibile al Costo per l'Editing di Immagini Multi-turn
CoSTAast: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing
March 13, 2025
Autori: Advait Gupta, NandaKiran Velaga, Dang Nguyen, Tianyi Zhou
cs.AI
Abstract
I modelli text-to-image come Stable Diffusion e DALLE-3 continuano a incontrare difficoltà nell'editing di immagini multi-turn. Scomponiamo tale compito come un flusso di lavoro agentico (percorso) di utilizzo di strumenti che affronta una sequenza di sottocompiti attraverso strumenti di intelligenza artificiale di costi variabili. Gli algoritmi di ricerca convenzionali richiedono un'esplorazione costosa per trovare percorsi di strumenti. Sebbene i grandi modelli linguistici (LLM) possiedano una conoscenza a priori della pianificazione dei sottocompiti, potrebbero mancare di stime accurate delle capacità e dei costi degli strumenti per determinare quali applicare in ciascun sottocompito. Possiamo combinare i punti di forza sia degli LLM che della ricerca su grafo per trovare percorsi di strumenti efficienti in termini di costo? Proponiamo un approccio in tre fasi chiamato "CoSTA*" che sfrutta gli LLM per creare un albero di sottocompiti, il quale aiuta a potare un grafo di strumenti di IA per il compito dato, e poi conduce una ricerca A* sul sottografo ridotto per trovare un percorso di strumenti. Per bilanciare meglio il costo totale e la qualità, CoSTA* combina entrambe le metriche di ciascuno strumento su ogni sottocompito per guidare la ricerca A*. L'output di ciascun sottocompito viene poi valutato da un modello visione-linguaggio (VLM), dove un fallimento attiverà un aggiornamento del costo e della qualità dello strumento sul sottocompito. Pertanto, la ricerca A* può riprendersi rapidamente dai fallimenti per esplorare altri percorsi. Inoltre, CoSTA* può passare automaticamente tra modalità attraverso i sottocompiti per un migliore compromesso costo-qualità. Costruiamo un nuovo benchmark di editing di immagini multi-turn impegnativo, su cui CoSTA* supera i modelli o agenti di editing di immagini all'avanguardia sia in termini di costo che di qualità, e offre compromessi versatili in base alle preferenze dell'utente.
English
Text-to-image models like stable diffusion and DALLE-3 still struggle with
multi-turn image editing. We decompose such a task as an agentic workflow
(path) of tool use that addresses a sequence of subtasks by AI tools of varying
costs. Conventional search algorithms require expensive exploration to find
tool paths. While large language models (LLMs) possess prior knowledge of
subtask planning, they may lack accurate estimations of capabilities and costs
of tools to determine which to apply in each subtask. Can we combine the
strengths of both LLMs and graph search to find cost-efficient tool paths? We
propose a three-stage approach "CoSTA*" that leverages LLMs to create a subtask
tree, which helps prune a graph of AI tools for the given task, and then
conducts A* search on the small subgraph to find a tool path. To better balance
the total cost and quality, CoSTA* combines both metrics of each tool on every
subtask to guide the A* search. Each subtask's output is then evaluated by a
vision-language model (VLM), where a failure will trigger an update of the
tool's cost and quality on the subtask. Hence, the A* search can recover from
failures quickly to explore other paths. Moreover, CoSTA* can automatically
switch between modalities across subtasks for a better cost-quality trade-off.
We build a novel benchmark of challenging multi-turn image editing, on which
CoSTA* outperforms state-of-the-art image-editing models or agents in terms of
both cost and quality, and performs versatile trade-offs upon user preference.Summary
AI-Generated Summary