ChatPaper.aiChatPaper

エージェント・バナナ:エージェント的思考とツーリングによる高精度画像編集

Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

February 9, 2026
著者: Ruijie Ye, Jiayi Zhang, Zhuoxin Liu, Zihao Zhu, Siyuan Yang, Li Li, Tianfu Fu, Franck Dernoncourt, Yue Zhao, Jiacheng Zhu, Ryan Rossi, Wenhao Chai, Zhengzhong Tu
cs.AI

要旨

本研究では、プロフェッショナルなワークフローに基づく指示駆動型画像編集を検討し、以下の3つの持続的課題を特定した。(i) 編集者がユーザーの意図を超えてコンテンツを修正する「過剰編集」が頻発する、(ii) 既存モデルは単一ターン編集が主流であり、複数ターン編集ではオブジェクトの忠実性が損なわれる、(iii) 約1K解像度での評価は、超高解像度画像(4K等)を扱う実際のワークフローと乖離している。これらに対処するため、高忠実度・オブジェクト認識型・慎重な編集を実現する階層的エージェント計画実行フレームワーク「Agent Banana」を提案する。本フレームワークは二つの核心機構を導入する:(1) 長い対話履歴を構造化メモリに圧縮し安定した長期制御を実現する「文脈折りたたみ(Context Folding)」、(2) 非対象領域を保持しつつネイティブ解像度出力を可能にする局所的なレイヤーベース編集「画像レイヤー分解(Image Layer Decomposition)」である。厳密な評価を可能にするため、検証可能な段階的目標とネイティブ4K画像(1180万画素)を備えた高精細対話型ベンチマーク「HDD-Bench」を構築した。HDD-BenchにおいてAgent Bananaは、指示追従性能で競争力を維持しつつ、最高の複数ターン一貫性と背景忠実性(例:IC 0.871、SSIM-OM 0.84、LPIPS-OM 0.12)を達成し、標準的な単一ターン編集ベンチマークでも強固な性能を示した。本研究成果が信頼性の高いプロフェッショナル級エージェント画像編集と実ワークフローへの統合を推進することを期待する。
English
We study instruction-based image editing under professional workflows and identify three persistent challenges: (i) editors often over-edit, modifying content beyond the user's intent; (ii) existing models are largely single-turn, while multi-turn edits can alter object faithfulness; and (iii) evaluation at around 1K resolution is misaligned with real workflows that often operate on ultra high-definition images (e.g., 4K). We propose Agent Banana, a hierarchical agentic planner-executor framework for high-fidelity, object-aware, deliberative editing. Agent Banana introduces two key mechanisms: (1) Context Folding, which compresses long interaction histories into structured memory for stable long-horizon control; and (2) Image Layer Decomposition, which performs localized layer-based edits to preserve non-target regions while enabling native-resolution outputs. To support rigorous evaluation, we build HDD-Bench, a high-definition, dialogue-based benchmark featuring verifiable stepwise targets and native 4K images (11.8M pixels) for diagnosing long-horizon failures. On HDD-Bench, Agent Banana achieves the best multi-turn consistency and background fidelity (e.g., IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) while remaining competitive on instruction following, and also attains strong performance on standard single-turn editing benchmarks. We hope this work advances reliable, professional-grade agentic image editing and its integration into real workflows.
PDF192February 12, 2026