ChatPaper.aiChatPaper

CoSTAast: Агент для построения траекторий с учетом стоимости в многопроходном редактировании изображений

CoSTAast: Cost-Sensitive Toolpath Agent for Multi-turn Image Editing

March 13, 2025
Авторы: Advait Gupta, NandaKiran Velaga, Dang Nguyen, Tianyi Zhou
cs.AI

Аннотация

Модели генерации изображений по тексту, такие как Stable Diffusion и DALLE-3, всё ещё испытывают трудности с многошаговым редактированием изображений. Мы декомпозируем такую задачу как агентный рабочий процесс (путь) использования инструментов, который решает последовательность подзадач с помощью инструментов ИИ различной стоимости. Традиционные алгоритмы поиска требуют дорогостоящего исследования для нахождения путей использования инструментов. Хотя крупные языковые модели (LLM) обладают априорными знаниями для планирования подзадач, они могут не иметь точных оценок возможностей и стоимости инструментов, чтобы определить, какие из них применять в каждой подзадаче. Можем ли мы объединить сильные стороны LLM и графового поиска для нахождения экономически эффективных путей использования инструментов? Мы предлагаем трёхэтапный подход "CoSTA*", который использует LLM для создания дерева подзадач, что помогает сократить граф инструментов ИИ для данной задачи, а затем проводит поиск A* на небольшом подграфе для нахождения пути использования инструментов. Для лучшего баланса общей стоимости и качества CoSTA* объединяет обе метрики каждого инструмента на каждой подзадаче, чтобы направлять поиск A*. Результат каждой подзадачи затем оценивается моделью "визуальный язык" (VLM), где неудача запускает обновление стоимости и качества инструмента на подзадаче. Таким образом, поиск A* может быстро восстанавливаться после неудач и исследовать другие пути. Более того, CoSTA* может автоматически переключаться между модальностями в разных подзадачах для лучшего компромисса между стоимостью и качеством. Мы создали новый эталонный набор сложных задач многошагового редактирования изображений, на котором CoSTA* превосходит современные модели или агенты редактирования изображений как по стоимости, так и по качеству, и обеспечивает гибкие компромиссы в зависимости от предпочтений пользователя.
English
Text-to-image models like stable diffusion and DALLE-3 still struggle with multi-turn image editing. We decompose such a task as an agentic workflow (path) of tool use that addresses a sequence of subtasks by AI tools of varying costs. Conventional search algorithms require expensive exploration to find tool paths. While large language models (LLMs) possess prior knowledge of subtask planning, they may lack accurate estimations of capabilities and costs of tools to determine which to apply in each subtask. Can we combine the strengths of both LLMs and graph search to find cost-efficient tool paths? We propose a three-stage approach "CoSTA*" that leverages LLMs to create a subtask tree, which helps prune a graph of AI tools for the given task, and then conducts A* search on the small subgraph to find a tool path. To better balance the total cost and quality, CoSTA* combines both metrics of each tool on every subtask to guide the A* search. Each subtask's output is then evaluated by a vision-language model (VLM), where a failure will trigger an update of the tool's cost and quality on the subtask. Hence, the A* search can recover from failures quickly to explore other paths. Moreover, CoSTA* can automatically switch between modalities across subtasks for a better cost-quality trade-off. We build a novel benchmark of challenging multi-turn image editing, on which CoSTA* outperforms state-of-the-art image-editing models or agents in terms of both cost and quality, and performs versatile trade-offs upon user preference.

Summary

AI-Generated Summary

PDF7910March 14, 2025