CoSTAast : Agent de trajectoire d'outil sensible au coût pour l'édition d'images multi-tours
CoSTAast: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing
March 13, 2025
Auteurs: Advait Gupta, NandaKiran Velaga, Dang Nguyen, Tianyi Zhou
cs.AI
Résumé
Les modèles de génération d'images à partir de texte, tels que Stable Diffusion et DALLE-3, rencontrent encore des difficultés avec l'édition d'images en plusieurs étapes. Nous décomposons cette tâche en un flux de travail agentique (chemin) d'utilisation d'outils qui aborde une séquence de sous-tâches via des outils d'IA de coûts variés. Les algorithmes de recherche conventionnels nécessitent une exploration coûteuse pour trouver des chemins d'outils. Bien que les grands modèles de langage (LLMs) possèdent une connaissance a priori de la planification des sous-tâches, ils peuvent manquer d'estimations précises des capacités et des coûts des outils pour déterminer lesquels appliquer à chaque sous-tâche. Pouvons-nous combiner les forces des LLMs et de la recherche dans un graphe pour trouver des chemins d'outils économiques ? Nous proposons une approche en trois étapes, "CoSTA*", qui exploite les LLMs pour créer un arbre de sous-tâches, ce qui permet d'élaguer un graphe d'outils d'IA pour la tâche donnée, puis effectue une recherche A* sur le sous-graphe réduit pour trouver un chemin d'outils. Pour mieux équilibrer le coût total et la qualité, CoSTA* combine les deux métriques de chaque outil sur chaque sous-tâche pour guider la recherche A*. La sortie de chaque sous-tâche est ensuite évaluée par un modèle vision-langage (VLM), où un échec déclenche une mise à jour du coût et de la qualité de l'outil sur la sous-tâche. Ainsi, la recherche A* peut rapidement se remettre des échecs pour explorer d'autres chemins. De plus, CoSTA* peut automatiquement basculer entre les modalités d'une sous-tâche à l'autre pour un meilleur compromis coût-qualité. Nous avons construit un nouveau benchmark d'édition d'images en plusieurs étapes, sur lequel CoSTA* surpasse les modèles ou agents d'édition d'images de pointe en termes de coût et de qualité, et offre des compromis polyvalents selon les préférences de l'utilisateur.
English
Text-to-image models like stable diffusion and DALLE-3 still struggle with
multi-turn image editing. We decompose such a task as an agentic workflow
(path) of tool use that addresses a sequence of subtasks by AI tools of varying
costs. Conventional search algorithms require expensive exploration to find
tool paths. While large language models (LLMs) possess prior knowledge of
subtask planning, they may lack accurate estimations of capabilities and costs
of tools to determine which to apply in each subtask. Can we combine the
strengths of both LLMs and graph search to find cost-efficient tool paths? We
propose a three-stage approach "CoSTA*" that leverages LLMs to create a subtask
tree, which helps prune a graph of AI tools for the given task, and then
conducts A* search on the small subgraph to find a tool path. To better balance
the total cost and quality, CoSTA* combines both metrics of each tool on every
subtask to guide the A* search. Each subtask's output is then evaluated by a
vision-language model (VLM), where a failure will trigger an update of the
tool's cost and quality on the subtask. Hence, the A* search can recover from
failures quickly to explore other paths. Moreover, CoSTA* can automatically
switch between modalities across subtasks for a better cost-quality trade-off.
We build a novel benchmark of challenging multi-turn image editing, on which
CoSTA* outperforms state-of-the-art image-editing models or agents in terms of
both cost and quality, and performs versatile trade-offs upon user preference.Summary
AI-Generated Summary