CoSTAast: Kostenbewust Toolpad-agent voor Multi-turn Beeldbewerking
CoSTAast: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing
March 13, 2025
Auteurs: Advait Gupta, NandaKiran Velaga, Dang Nguyen, Tianyi Zhou
cs.AI
Samenvatting
Text-to-image-modellen zoals Stable Diffusion en DALLE-3 hebben nog steeds moeite met multi-turn beeldbewerking. We ontleden zo'n taak als een agent-gebaseerde workflow (pad) van toolgebruik die een reeks subtaken aanpakt met AI-tools van uiteenlopende kosten. Conventionele zoekalgoritmen vereisen dure exploratie om toolpaden te vinden. Hoewel grote taalmodellen (LLM's) voorkennis hebben van subtaskplanning, kunnen ze nauwkeurige inschattingen van de mogelijkheden en kosten van tools missen om te bepalen welke in elke subtask toegepast moeten worden. Kunnen we de sterke punten van zowel LLM's als grafiekzoeken combineren om kostenefficiënte toolpaden te vinden? We stellen een driestapsbenadering "CoSTA*" voor die LLM's gebruikt om een subtaskboom te creëren, wat helpt bij het snoeien van een grafiek van AI-tools voor de gegeven taak, en vervolgens A*-zoeken uitvoert op de kleine subgrafiek om een toolpad te vinden. Om de totale kosten en kwaliteit beter in balans te brengen, combineert CoSTA* beide metrieken van elke tool voor elke subtask om het A*-zoeken te sturen. De output van elke subtask wordt vervolgens geëvalueerd door een vision-language model (VLM), waarbij een falen een update van de kosten en kwaliteit van de tool voor die subtask triggert. Hierdoor kan het A*-zoeken snel herstellen van fouten om andere paden te verkennen. Bovendien kan CoSTA* automatisch schakelen tussen modaliteiten over subtasks heen voor een betere kosten-kwaliteitverhouding. We bouwen een nieuwe benchmark voor uitdagende multi-turn beeldbewerking, waarop CoSTA* zowel op kosten als kwaliteit beter presteert dan state-of-the-art beeldbewerkingsmodellen of agents, en flexibele afwegingen maakt op basis van gebruikersvoorkeuren.
English
Text-to-image models like stable diffusion and DALLE-3 still struggle with
multi-turn image editing. We decompose such a task as an agentic workflow
(path) of tool use that addresses a sequence of subtasks by AI tools of varying
costs. Conventional search algorithms require expensive exploration to find
tool paths. While large language models (LLMs) possess prior knowledge of
subtask planning, they may lack accurate estimations of capabilities and costs
of tools to determine which to apply in each subtask. Can we combine the
strengths of both LLMs and graph search to find cost-efficient tool paths? We
propose a three-stage approach "CoSTA*" that leverages LLMs to create a subtask
tree, which helps prune a graph of AI tools for the given task, and then
conducts A* search on the small subgraph to find a tool path. To better balance
the total cost and quality, CoSTA* combines both metrics of each tool on every
subtask to guide the A* search. Each subtask's output is then evaluated by a
vision-language model (VLM), where a failure will trigger an update of the
tool's cost and quality on the subtask. Hence, the A* search can recover from
failures quickly to explore other paths. Moreover, CoSTA* can automatically
switch between modalities across subtasks for a better cost-quality trade-off.
We build a novel benchmark of challenging multi-turn image editing, on which
CoSTA* outperforms state-of-the-art image-editing models or agents in terms of
both cost and quality, and performs versatile trade-offs upon user preference.Summary
AI-Generated Summary