CoSTAast: Agente de Trajetória de Ferramenta Sensível ao Custo para Edição de Imagens em Múltiplas Etapas
CoSTAast: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing
March 13, 2025
Autores: Advait Gupta, NandaKiran Velaga, Dang Nguyen, Tianyi Zhou
cs.AI
Resumo
Modelos de texto para imagem, como Stable Diffusion e DALLE-3, ainda enfrentam dificuldades com edição de imagens em múltiplas etapas. Decompomos essa tarefa como um fluxo de trabalho (caminho) agencial de uso de ferramentas que aborda uma sequência de subtarefas por meio de ferramentas de IA com custos variados. Algoritmos de busca convencionais exigem uma exploração dispendiosa para encontrar caminhos de ferramentas. Embora os modelos de linguagem de grande escala (LLMs) possuam conhecimento prévio de planejamento de subtarefas, eles podem carecer de estimativas precisas das capacidades e custos das ferramentas para determinar quais aplicar em cada subtarefa. Podemos combinar os pontos fortes de ambos, LLMs e busca em grafos, para encontrar caminhos de ferramentas com custo eficiente? Propomos uma abordagem em três etapas, "CoSTA*", que aproveita os LLMs para criar uma árvore de subtarefas, o que ajuda a podar um grafo de ferramentas de IA para a tarefa dada, e então realiza uma busca A* no subgrafo reduzido para encontrar um caminho de ferramentas. Para equilibrar melhor o custo total e a qualidade, o CoSTA* combina ambas as métricas de cada ferramenta em cada subtarefa para guiar a busca A*. A saída de cada subtarefa é então avaliada por um modelo de visão e linguagem (VLM), onde uma falha acionará uma atualização do custo e da qualidade da ferramenta na subtarefa. Assim, a busca A* pode se recuperar rapidamente de falhas para explorar outros caminhos. Além disso, o CoSTA* pode alternar automaticamente entre modalidades ao longo das subtarefas para uma melhor relação custo-qualidade. Construímos um novo benchmark de edição de imagens desafiador em múltiplas etapas, no qual o CoSTA* supera os modelos ou agentes de edição de imagem mais avançados em termos de custo e qualidade, e realiza trocas versáteis de acordo com a preferência do usuário.
English
Text-to-image models like stable diffusion and DALLE-3 still struggle with
multi-turn image editing. We decompose such a task as an agentic workflow
(path) of tool use that addresses a sequence of subtasks by AI tools of varying
costs. Conventional search algorithms require expensive exploration to find
tool paths. While large language models (LLMs) possess prior knowledge of
subtask planning, they may lack accurate estimations of capabilities and costs
of tools to determine which to apply in each subtask. Can we combine the
strengths of both LLMs and graph search to find cost-efficient tool paths? We
propose a three-stage approach "CoSTA*" that leverages LLMs to create a subtask
tree, which helps prune a graph of AI tools for the given task, and then
conducts A* search on the small subgraph to find a tool path. To better balance
the total cost and quality, CoSTA* combines both metrics of each tool on every
subtask to guide the A* search. Each subtask's output is then evaluated by a
vision-language model (VLM), where a failure will trigger an update of the
tool's cost and quality on the subtask. Hence, the A* search can recover from
failures quickly to explore other paths. Moreover, CoSTA* can automatically
switch between modalities across subtasks for a better cost-quality trade-off.
We build a novel benchmark of challenging multi-turn image editing, on which
CoSTA* outperforms state-of-the-art image-editing models or agents in terms of
both cost and quality, and performs versatile trade-offs upon user preference.Summary
AI-Generated Summary