ChatPaper.aiChatPaper

FaSTA^*: Agente de Trayectoria Rápida-Lenta con Minería de Subrutinas para la Edición Eficiente de Imágenes en Múltiples Pasos

FaSTA^*: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

June 26, 2025
Autores: Advait Gupta, Rishie Raj, Dang Nguyen, Tianyi Zhou
cs.AI

Resumen

Desarrollamos un agente neurosimbólico rentable para abordar tareas desafiantes de edición de imágenes en múltiples pasos, como "Detectar el banco en la imagen mientras se recolorea a rosa. Además, eliminar el gato para una vista más clara y recolorear la pared a amarillo". Este agente combina la planificación rápida y de alto nivel de subtareas mediante modelos de lenguaje grandes (LLMs) con el uso lento, preciso y local de herramientas, junto con una búsqueda A^* por subtarea para encontrar una ruta de herramientas rentable: una secuencia de llamadas a herramientas de IA. Para reducir el costo de A^* en subtareas similares, realizamos razonamiento inductivo sobre rutas de herramientas previamente exitosas mediante LLMs, extrayendo y refinando continuamente subrutinas de uso frecuente para reutilizarlas como nuevas herramientas en tareas futuras dentro de un esquema de planificación rápida-lenta adaptativa. En este enfoque, las subrutinas de alto nivel se exploran primero, y solo cuando fallan, se activa la búsqueda A^* de bajo nivel. Las subrutinas simbólicas reutilizables reducen considerablemente el costo de exploración en subtareas del mismo tipo aplicadas a imágenes similares, dando lugar a un agente de ruta de herramientas rápida-lenta similar al humano, denominado "FaSTA^*": la planificación rápida de subtareas seguida de la selección de subrutinas basada en reglas por subtarea se intenta primero mediante LLMs, lo que se espera cubra la mayoría de las tareas, mientras que la búsqueda lenta A^* solo se activa para subtareas novedosas y desafiantes. Al compararlo con enfoques recientes de edición de imágenes, demostramos que FaSTA^* es significativamente más eficiente computacionalmente, manteniéndose competitivo con el estado del arte en términos de tasa de éxito.
English
We develop a cost-efficient neurosymbolic agent to address challenging multi-turn image editing tasks such as "Detect the bench in the image while recoloring it to pink. Also, remove the cat for a clearer view and recolor the wall to yellow.'' It combines the fast, high-level subtask planning by large language models (LLMs) with the slow, accurate, tool-use, and local A^* search per subtask to find a cost-efficient toolpath -- a sequence of calls to AI tools. To save the cost of A^* on similar subtasks, we perform inductive reasoning on previously successful toolpaths via LLMs to continuously extract/refine frequently used subroutines and reuse them as new tools for future tasks in an adaptive fast-slow planning, where the higher-level subroutines are explored first, and only when they fail, the low-level A^* search is activated. The reusable symbolic subroutines considerably save exploration cost on the same types of subtasks applied to similar images, yielding a human-like fast-slow toolpath agent "FaSTA^*'': fast subtask planning followed by rule-based subroutine selection per subtask is attempted by LLMs at first, which is expected to cover most tasks, while slow A^* search is only triggered for novel and challenging subtasks. By comparing with recent image editing approaches, we demonstrate FaSTA^* is significantly more computationally efficient while remaining competitive with the state-of-the-art baseline in terms of success rate.
PDF372June 27, 2025