Agente Banana: Modifica di Immagini ad Alta Fedeltà con Pensiero Agente e Strumentazione
Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling
February 9, 2026
Autori: Ruijie Ye, Jiayi Zhang, Zhuoxin Liu, Zihao Zhu, Siyuan Yang, Li Li, Tianfu Fu, Franck Dernoncourt, Yue Zhao, Jiacheng Zhu, Ryan Rossi, Wenhao Chai, Zhengzhong Tu
cs.AI
Abstract
Studiamo l'editing di immagini basato su istruzioni all'interno di flussi di lavoro professionali e identifichiamo tre sfide persistenti: (i) gli editor tendono a modificare eccessivamente, alterando contenuti oltre l'intento dell'utente; (ii) i modelli esistenti sono prevalentemente single-turn, mentre modifiche multi-turn possono compromettere la fedeltà oggettuale; (iii) la valutazione a risoluzioni di circa 1K è disallineata dai flussi di lavoro reali che spesso operano su immagini ultra high-definition (es. 4K). Proponiamo Agent Banana, un framework agente gerarchico planner-executor per editing deliberativo, ad alta fedeltà e consapevole degli oggetti. Agent Banana introduce due meccanismi chiave: (1) il Context Folding, che comprime lunghe cronologie d'interazione in memoria strutturata per un controllo stabile a lungo termine; e (2) la Scomposizione a Livelli Immagine, che esegue modifiche localizzate basate su layer per preservare le regioni non target consentendo output a risoluzione nativa. Per supportare una valutazione rigorosa, costruiamo HDD-Bench, un benchmark high-definition basato su dialoghi, con target verificabili step-by-step e immagini native 4K (11.8M pixel) per diagnosticare errori a lungo termine. Su HDD-Bench, Agent Banana raggiunge la migliore coerenza multi-turn e fedeltà dello sfondo (es. IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) mantenendo competitività nel seguire le istruzioni, e ottiene anche performance solide su benchmark standard di editing single-turn. Auspichiamo che questo lavoro avanzi l'editing agente di immagini affidabile di livello professionale e la sua integrazione in flussi di lavoro reali.
English
We study instruction-based image editing under professional workflows and identify three persistent challenges: (i) editors often over-edit, modifying content beyond the user's intent; (ii) existing models are largely single-turn, while multi-turn edits can alter object faithfulness; and (iii) evaluation at around 1K resolution is misaligned with real workflows that often operate on ultra high-definition images (e.g., 4K). We propose Agent Banana, a hierarchical agentic planner-executor framework for high-fidelity, object-aware, deliberative editing. Agent Banana introduces two key mechanisms: (1) Context Folding, which compresses long interaction histories into structured memory for stable long-horizon control; and (2) Image Layer Decomposition, which performs localized layer-based edits to preserve non-target regions while enabling native-resolution outputs. To support rigorous evaluation, we build HDD-Bench, a high-definition, dialogue-based benchmark featuring verifiable stepwise targets and native 4K images (11.8M pixels) for diagnosing long-horizon failures. On HDD-Bench, Agent Banana achieves the best multi-turn consistency and background fidelity (e.g., IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) while remaining competitive on instruction following, and also attains strong performance on standard single-turn editing benchmarks. We hope this work advances reliable, professional-grade agentic image editing and its integration into real workflows.