CoSTAast: Agente de Trayectoria de Herramientas Sensible al Costo para Edición de Imágenes en Múltiples Pasadas
CoSTAast: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing
March 13, 2025
Autores: Advait Gupta, NandaKiran Velaga, Dang Nguyen, Tianyi Zhou
cs.AI
Resumen
Los modelos de texto a imagen como Stable Diffusion y DALLE-3 aún enfrentan dificultades en la edición de imágenes de múltiples pasos. Descomponemos esta tarea como un flujo de trabajo agencial (ruta) de uso de herramientas que aborda una secuencia de subtareas mediante herramientas de IA de costos variables. Los algoritmos de búsqueda convencionales requieren una exploración costosa para encontrar rutas de herramientas. Si bien los modelos de lenguaje grandes (LLMs) poseen conocimiento previo sobre la planificación de subtareas, pueden carecer de estimaciones precisas de las capacidades y costos de las herramientas para determinar cuál aplicar en cada subtarea. ¿Podemos combinar las fortalezas de los LLMs y la búsqueda en grafos para encontrar rutas de herramientas eficientes en costos? Proponemos un enfoque de tres etapas llamado "CoSTA*" que aprovecha los LLMs para crear un árbol de subtareas, lo cual ayuda a podar un grafo de herramientas de IA para la tarea dada, y luego realiza una búsqueda A* en el subgrafo pequeño para encontrar una ruta de herramientas. Para equilibrar mejor el costo total y la calidad, CoSTA* combina ambas métricas de cada herramienta en cada subtarea para guiar la búsqueda A*. La salida de cada subtarea es evaluada por un modelo de visión-lenguaje (VLM), donde un fallo desencadena una actualización del costo y la calidad de la herramienta en la subtarea. Así, la búsqueda A* puede recuperarse rápidamente de los fallos para explorar otras rutas. Además, CoSTA* puede cambiar automáticamente entre modalidades en las subtareas para lograr un mejor equilibrio entre costo y calidad. Construimos un nuevo benchmark de edición de imágenes de múltiples pasos desafiante, en el cual CoSTA* supera a los modelos o agentes de edición de imágenes más avanzados en términos de costo y calidad, y realiza equilibrios versátiles según la preferencia del usuario.
English
Text-to-image models like stable diffusion and DALLE-3 still struggle with
multi-turn image editing. We decompose such a task as an agentic workflow
(path) of tool use that addresses a sequence of subtasks by AI tools of varying
costs. Conventional search algorithms require expensive exploration to find
tool paths. While large language models (LLMs) possess prior knowledge of
subtask planning, they may lack accurate estimations of capabilities and costs
of tools to determine which to apply in each subtask. Can we combine the
strengths of both LLMs and graph search to find cost-efficient tool paths? We
propose a three-stage approach "CoSTA*" that leverages LLMs to create a subtask
tree, which helps prune a graph of AI tools for the given task, and then
conducts A* search on the small subgraph to find a tool path. To better balance
the total cost and quality, CoSTA* combines both metrics of each tool on every
subtask to guide the A* search. Each subtask's output is then evaluated by a
vision-language model (VLM), where a failure will trigger an update of the
tool's cost and quality on the subtask. Hence, the A* search can recover from
failures quickly to explore other paths. Moreover, CoSTA* can automatically
switch between modalities across subtasks for a better cost-quality trade-off.
We build a novel benchmark of challenging multi-turn image editing, on which
CoSTA* outperforms state-of-the-art image-editing models or agents in terms of
both cost and quality, and performs versatile trade-offs upon user preference.Summary
AI-Generated Summary