ChatPaper.aiChatPaper

FaSTA^*: Быстрый-Медленный Агент Траекторий с Поиском Подпрограмм для Эффективного Многошагового Редактирования Изображений

FaSTA^*: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

June 26, 2025
Авторы: Advait Gupta, Rishie Raj, Dang Nguyen, Tianyi Zhou
cs.AI

Аннотация

Мы разрабатываем экономически эффективного нейросимволического агента для решения сложных задач многошагового редактирования изображений, таких как: «Обнаружьте скамейку на изображении, перекрасьте её в розовый цвет. Также удалите кошку для более чёткого вида и перекрасьте стену в жёлтый цвет». Наш подход сочетает быстрое планирование высокоуровневых подзадач с использованием больших языковых моделей (LLM) с медленным, точным использованием инструментов и локальным поиском A^* для каждой подзадачи с целью нахождения экономически эффективного пути инструментов — последовательности вызовов инструментов ИИ. Чтобы снизить затраты на поиск A^* для схожих подзадач, мы применяем индуктивное рассуждение на основе ранее успешных путей инструментов с использованием LLM для непрерывного извлечения и уточнения часто используемых подпрограмм, которые затем повторно используются в качестве новых инструментов для будущих задач в рамках адаптивного быстрого-медленного планирования. В этом подходе сначала исследуются высокоуровневые подпрограммы, и только в случае их неудачи активируется низкоуровневый поиск A^*. Повторно используемые символические подпрограммы значительно снижают затраты на исследование для однотипных подзадач, применяемых к схожим изображениям, что позволяет создать агента с человекообразным быстрым-медленным путём инструментов «FaSTA^*»: быстрое планирование подзадач с последующим выбором подпрограмм на основе правил для каждой подзадачи сначала выполняется с помощью LLM, что ожидаемо покрывает большинство задач, тогда как медленный поиск A^* активируется только для новых и сложных подзадач. Сравнение с современными подходами к редактированию изображений демонстрирует, что FaSTA^* значительно более эффективен с точки зрения вычислительных ресурсов, оставаясь при этом конкурентоспособным по сравнению с передовыми базовыми методами по показателю успешности выполнения задач.
English
We develop a cost-efficient neurosymbolic agent to address challenging multi-turn image editing tasks such as "Detect the bench in the image while recoloring it to pink. Also, remove the cat for a clearer view and recolor the wall to yellow.'' It combines the fast, high-level subtask planning by large language models (LLMs) with the slow, accurate, tool-use, and local A^* search per subtask to find a cost-efficient toolpath -- a sequence of calls to AI tools. To save the cost of A^* on similar subtasks, we perform inductive reasoning on previously successful toolpaths via LLMs to continuously extract/refine frequently used subroutines and reuse them as new tools for future tasks in an adaptive fast-slow planning, where the higher-level subroutines are explored first, and only when they fail, the low-level A^* search is activated. The reusable symbolic subroutines considerably save exploration cost on the same types of subtasks applied to similar images, yielding a human-like fast-slow toolpath agent "FaSTA^*'': fast subtask planning followed by rule-based subroutine selection per subtask is attempted by LLMs at first, which is expected to cover most tasks, while slow A^* search is only triggered for novel and challenging subtasks. By comparing with recent image editing approaches, we demonstrate FaSTA^* is significantly more computationally efficient while remaining competitive with the state-of-the-art baseline in terms of success rate.
PDF372June 27, 2025