ChatPaper.aiChatPaper

FaSTA^*: 効率的なマルチターン画像編集のためのサブルーチン採掘機能を備えた高速-低速ツールパスエージェント

FaSTA^*: Fast-Slow Toolpath Agent with Subroutine Mining for Efficient Multi-turn Image Editing

June 26, 2025
著者: Advait Gupta, Rishie Raj, Dang Nguyen, Tianyi Zhou
cs.AI

要旨

我々は、コスト効率の良いニューロシンボリックエージェントを開発し、「画像内のベンチを検出し、ピンクに色を変える。また、猫を削除して視界をクリアにし、壁を黄色に再着色する」といった複雑なマルチターン画像編集タスクに対応します。このエージェントは、大規模言語モデル(LLM)による高速で高レベルのサブタスク計画と、各サブタスクに対する低速で正確なツール使用および局所的なA^*探索を組み合わせ、コスト効率の良いツールパス(AIツールへの呼び出しシーケンス)を見つけます。類似したサブタスクに対するA^*のコストを節約するため、LLMを用いて過去に成功したツールパスから帰納的推論を行い、頻繁に使用されるサブルーチンを継続的に抽出・改良し、将来のタスクに再利用可能な新しいツールとして適用します。これは適応的な高速-低速計画において、まず高レベルのサブルーチンが探索され、それらが失敗した場合にのみ低レベルのA^*探索が活性化される仕組みです。再利用可能なシンボリックサブルーチンは、類似した画像に適用される同じタイプのサブタスクに対する探索コストを大幅に節約し、人間のような高速-低速ツールパスエージェント「FaSTA^*」を実現します。FaSTA^*では、まずLLMによる高速なサブタスク計画とルールベースのサブルーチン選択が試みられ、これによりほとんどのタスクがカバーされることが期待されますが、新しいまたは難しいサブタスクに対してのみ低速のA^*探索がトリガーされます。最近の画像編集手法と比較することで、FaSTA^*が計算効率において大幅に優れている一方で、成功率においても最先端のベースラインと競争力があることを実証します。
English
We develop a cost-efficient neurosymbolic agent to address challenging multi-turn image editing tasks such as "Detect the bench in the image while recoloring it to pink. Also, remove the cat for a clearer view and recolor the wall to yellow.'' It combines the fast, high-level subtask planning by large language models (LLMs) with the slow, accurate, tool-use, and local A^* search per subtask to find a cost-efficient toolpath -- a sequence of calls to AI tools. To save the cost of A^* on similar subtasks, we perform inductive reasoning on previously successful toolpaths via LLMs to continuously extract/refine frequently used subroutines and reuse them as new tools for future tasks in an adaptive fast-slow planning, where the higher-level subroutines are explored first, and only when they fail, the low-level A^* search is activated. The reusable symbolic subroutines considerably save exploration cost on the same types of subtasks applied to similar images, yielding a human-like fast-slow toolpath agent "FaSTA^*'': fast subtask planning followed by rule-based subroutine selection per subtask is attempted by LLMs at first, which is expected to cover most tasks, while slow A^* search is only triggered for novel and challenging subtasks. By comparing with recent image editing approaches, we demonstrate FaSTA^* is significantly more computationally efficient while remaining competitive with the state-of-the-art baseline in terms of success rate.
PDF372June 27, 2025