FaSTA^*: Schnell-Langsam-Werkzeugpfad-Agent mit Unterprogramm-Mining für effiziente Mehrschritt-Bildbearbeitung
FaSTA^*: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing
June 26, 2025
Autoren: Advait Gupta, Rishie Raj, Dang Nguyen, Tianyi Zhou
cs.AI
Zusammenfassung
Wir entwickeln einen kosteneffizienten neurosymbolischen Agenten, um anspruchsvolle mehrstufige Bildbearbeitungsaufgaben zu bewältigen, wie zum Beispiel: „Erkenne die Bank im Bild und färbe sie pink um. Entferne außerdem die Katze für eine klarere Sicht und färbe die Wand gelb ein.“ Dieser kombiniert die schnelle, hochrangige Unteraufgabenplanung durch große Sprachmodelle (LLMs) mit der langsamen, präzisen Werkzeugnutzung und lokalen A^*-Suche pro Unteraufgabe, um einen kosteneffizienten Werkzeugpfad zu finden – eine Abfolge von Aufrufen an KI-Werkzeuge. Um die Kosten der A^*-Suche bei ähnlichen Unteraufgaben zu sparen, führen wir induktives Schließen auf zuvor erfolgreichen Werkzeugpfaden mittels LLMs durch, um häufig verwendete Unterroutinen kontinuierlich zu extrahieren und zu verfeinern und sie als neue Werkzeuge für zukünftige Aufgaben in einer adaptiven Schnell-Langsam-Planung wiederzuverwenden, bei der zunächst die höherrangigen Unterroutinen erkundet werden und nur bei deren Scheitern die niedrigrangige A^*-Suche aktiviert wird. Die wiederverwendbaren symbolischen Unterroutinen sparen erheblich Erkundungskosten bei denselben Arten von Unteraufgaben, die auf ähnliche Bilder angewendet werden, und ergeben einen menschenähnlichen Schnell-Langsam-Werkzeugpfad-Agenten „FaSTA^*“: Schnelle Unteraufgabenplanung gefolgt von regelbasierter Unterroutinenauswahl pro Unteraufgabe wird zunächst durch LLMs versucht, was die meisten Aufgaben abdecken soll, während die langsame A^*-Suche nur für neuartige und herausfordernde Unteraufgaben ausgelöst wird. Durch den Vergleich mit aktuellen Bildbearbeitungsansätzen zeigen wir, dass FaSTA^* deutlich recheneffizienter ist und dennoch hinsichtlich der Erfolgsquote mit dem state-of-the-art Baseline konkurrieren kann.
English
We develop a cost-efficient neurosymbolic agent to address challenging
multi-turn image editing tasks such as "Detect the bench in the image while
recoloring it to pink. Also, remove the cat for a clearer view and recolor the
wall to yellow.'' It combines the fast, high-level subtask planning by large
language models (LLMs) with the slow, accurate, tool-use, and local A^*
search per subtask to find a cost-efficient toolpath -- a sequence of calls to
AI tools. To save the cost of A^* on similar subtasks, we perform inductive
reasoning on previously successful toolpaths via LLMs to continuously
extract/refine frequently used subroutines and reuse them as new tools for
future tasks in an adaptive fast-slow planning, where the higher-level
subroutines are explored first, and only when they fail, the low-level A^*
search is activated. The reusable symbolic subroutines considerably save
exploration cost on the same types of subtasks applied to similar images,
yielding a human-like fast-slow toolpath agent "FaSTA^*'': fast subtask
planning followed by rule-based subroutine selection per subtask is attempted
by LLMs at first, which is expected to cover most tasks, while slow A^*
search is only triggered for novel and challenging subtasks. By comparing with
recent image editing approaches, we demonstrate FaSTA^* is significantly more
computationally efficient while remaining competitive with the state-of-the-art
baseline in terms of success rate.