ChatPaper.aiChatPaper

Agent Banana: Hochauflösende Bildbearbeitung durch agentenbasiertes Denken und Werkzeuge

Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

February 9, 2026
papers.authors: Ruijie Ye, Jiayi Zhang, Zhuoxin Liu, Zihao Zhu, Siyuan Yang, Li Li, Tianfu Fu, Franck Dernoncourt, Yue Zhao, Jiacheng Zhu, Ryan Rossi, Wenhao Chai, Zhengzhong Tu
cs.AI

papers.abstract

Wir untersuchen instruktionsbasiertes Bildbearbeitung in professionellen Workflows und identifizieren drei beständige Herausforderungen: (i) Editoren modifizieren häufig über das beabsichtigte Maß hinaus; (ii) bestehende Modelle sind überwiegend single-turn, während mehrstufige Bearbeitungen die Objekttreue beeinträchtigen können; (iii) die Evaluierung bei ca. 1K-Auflösung entspricht nicht realen Workflows, die oft mit Ultra-HD-Bildern (z.B. 4K) arbeiten. Wir stellen Agent Banana vor – ein hierarchisches agentenbasiertes Planer-Ausführer-Framework für hochpräzise, objektbewusste, deliberative Bearbeitung. Agent Banana führt zwei Schlüsselmechanismen ein: (1) Context Folding, das lange Interaktionsverläufe in strukturiertem Gedächtnis komprimiert für stabile Langzeitkontrolle; und (2) Image Layer Decomposition, das lokalisierte schichtbasierte Bearbeitungen durchführt, um nicht-betroffene Regionen zu erhalten und native Auflösungsausgaben zu ermöglichen. Für rigorose Evaluation entwickeln wir HDD-Bench, einen hochauflösenden, dialogbasierten Benchmark mit verifizierbaren schrittweisen Zielen und nativen 4K-Bildern (11,8M Pixel) zur Diagnose von Langzeitfehlern. Auf HDD-Bench erzielt Agent Banana die beste Mehrschritt-Konsistenz und Hintergrundtreue (z.B. IC 0,871, SSIM-OM 0,84, LPIPS-OM 0,12) bei gleichzeitig wettbewerbsfähiger Instruktionsbefolgung und zeigt auch auf standardisierten Single-Turn-Bearbeitungsbenchmarks starke Leistungen. Diese Arbeit soll zuverlässige, professionelle agentenbasierte Bildbearbeitung und deren Integration in reale Workflows voranbringen.
English
We study instruction-based image editing under professional workflows and identify three persistent challenges: (i) editors often over-edit, modifying content beyond the user's intent; (ii) existing models are largely single-turn, while multi-turn edits can alter object faithfulness; and (iii) evaluation at around 1K resolution is misaligned with real workflows that often operate on ultra high-definition images (e.g., 4K). We propose Agent Banana, a hierarchical agentic planner-executor framework for high-fidelity, object-aware, deliberative editing. Agent Banana introduces two key mechanisms: (1) Context Folding, which compresses long interaction histories into structured memory for stable long-horizon control; and (2) Image Layer Decomposition, which performs localized layer-based edits to preserve non-target regions while enabling native-resolution outputs. To support rigorous evaluation, we build HDD-Bench, a high-definition, dialogue-based benchmark featuring verifiable stepwise targets and native 4K images (11.8M pixels) for diagnosing long-horizon failures. On HDD-Bench, Agent Banana achieves the best multi-turn consistency and background fidelity (e.g., IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) while remaining competitive on instruction following, and also attains strong performance on standard single-turn editing benchmarks. We hope this work advances reliable, professional-grade agentic image editing and its integration into real workflows.
PDF192February 12, 2026