FaSTA^*: Agente de Trajetória Rápida-Lenta com Mineração de Sub-rotinas para Edição Eficiente de Imagens em Múltiplas Etapas
FaSTA^*: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing
June 26, 2025
Autores: Advait Gupta, Rishie Raj, Dang Nguyen, Tianyi Zhou
cs.AI
Resumo
Desenvolvemos um agente neurosimbólico de baixo custo para lidar com tarefas desafiadoras de edição de imagens em múltiplas etapas, como "Detectar o banco na imagem enquanto o recolore para rosa. Além disso, remover o gato para uma visão mais clara e recolorir a parede para amarelo." Ele combina o planejamento rápido e de alto nível de subtarefas por modelos de linguagem de grande escala (LLMs) com o uso lento, preciso, de ferramentas e busca local A^* por subtarefa para encontrar um caminho de ferramentas de baixo custo — uma sequência de chamadas para ferramentas de IA. Para economizar o custo da busca A^* em subtarefas semelhantes, realizamos raciocínio indutivo sobre caminhos de ferramentas previamente bem-sucedidos por meio de LLMs para extrair/refinar continuamente sub-rotinas frequentemente usadas e reutilizá-las como novas ferramentas para tarefas futuras em um planejamento rápido-lento adaptativo, onde as sub-rotinas de nível superior são exploradas primeiro, e apenas quando falham, a busca A^* de baixo nível é ativada. As sub-rotinas simbólicas reutilizáveis economizam consideravelmente o custo de exploração nos mesmos tipos de subtarefas aplicadas a imagens semelhantes, resultando em um agente de caminho de ferramentas rápido-lento semelhante ao humano, chamado "FaSTA^*": o planejamento rápido de subtarefas seguido pela seleção de sub-rotinas baseadas em regras por subtarefa é tentado primeiro pelos LLMs, o que deve cobrir a maioria das tarefas, enquanto a busca lenta A^* é acionada apenas para subtarefas novas e desafiadoras. Ao comparar com abordagens recentes de edição de imagens, demonstramos que o FaSTA^* é significativamente mais eficiente computacionalmente, mantendo-se competitivo com a linha de base state-of-the-art em termos de taxa de sucesso.
English
We develop a cost-efficient neurosymbolic agent to address challenging
multi-turn image editing tasks such as "Detect the bench in the image while
recoloring it to pink. Also, remove the cat for a clearer view and recolor the
wall to yellow.'' It combines the fast, high-level subtask planning by large
language models (LLMs) with the slow, accurate, tool-use, and local A^*
search per subtask to find a cost-efficient toolpath -- a sequence of calls to
AI tools. To save the cost of A^* on similar subtasks, we perform inductive
reasoning on previously successful toolpaths via LLMs to continuously
extract/refine frequently used subroutines and reuse them as new tools for
future tasks in an adaptive fast-slow planning, where the higher-level
subroutines are explored first, and only when they fail, the low-level A^*
search is activated. The reusable symbolic subroutines considerably save
exploration cost on the same types of subtasks applied to similar images,
yielding a human-like fast-slow toolpath agent "FaSTA^*'': fast subtask
planning followed by rule-based subroutine selection per subtask is attempted
by LLMs at first, which is expected to cover most tasks, while slow A^*
search is only triggered for novel and challenging subtasks. By comparing with
recent image editing approaches, we demonstrate FaSTA^* is significantly more
computationally efficient while remaining competitive with the state-of-the-art
baseline in terms of success rate.