Agente Banana: Modifica di Immagini ad Alta Fedeltà con Pensiero Agente e Strumentazione

Abstract

Studiamo l'editing di immagini basato su istruzioni all'interno di flussi di lavoro professionali e identifichiamo tre sfide persistenti: (i) gli editor tendono a modificare eccessivamente, alterando contenuti oltre l'intento dell'utente; (ii) i modelli esistenti sono prevalentemente single-turn, mentre modifiche multi-turn possono compromettere la fedeltà oggettuale; (iii) la valutazione a risoluzioni di circa 1K è disallineata dai flussi di lavoro reali che spesso operano su immagini ultra high-definition (es. 4K). Proponiamo Agent Banana, un framework agente gerarchico planner-executor per editing deliberativo, ad alta fedeltà e consapevole degli oggetti. Agent Banana introduce due meccanismi chiave: (1) il Context Folding, che comprime lunghe cronologie d'interazione in memoria strutturata per un controllo stabile a lungo termine; e (2) la Scomposizione a Livelli Immagine, che esegue modifiche localizzate basate su layer per preservare le regioni non target consentendo output a risoluzione nativa. Per supportare una valutazione rigorosa, costruiamo HDD-Bench, un benchmark high-definition basato su dialoghi, con target verificabili step-by-step e immagini native 4K (11.8M pixel) per diagnosticare errori a lungo termine. Su HDD-Bench, Agent Banana raggiunge la migliore coerenza multi-turn e fedeltà dello sfondo (es. IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) mantenendo competitività nel seguire le istruzioni, e ottiene anche performance solide su benchmark standard di editing single-turn. Auspichiamo che questo lavoro avanzi l'editing agente di immagini affidabile di livello professionale e la sua integrazione in flussi di lavoro reali.

English

We study instruction-based image editing under professional workflows and identify three persistent challenges: (i) editors often over-edit, modifying content beyond the user's intent; (ii) existing models are largely single-turn, while multi-turn edits can alter object faithfulness; and (iii) evaluation at around 1K resolution is misaligned with real workflows that often operate on ultra high-definition images (e.g., 4K). We propose Agent Banana, a hierarchical agentic planner-executor framework for high-fidelity, object-aware, deliberative editing. Agent Banana introduces two key mechanisms: (1) Context Folding, which compresses long interaction histories into structured memory for stable long-horizon control; and (2) Image Layer Decomposition, which performs localized layer-based edits to preserve non-target regions while enabling native-resolution outputs. To support rigorous evaluation, we build HDD-Bench, a high-definition, dialogue-based benchmark featuring verifiable stepwise targets and native 4K images (11.8M pixels) for diagnosing long-horizon failures. On HDD-Bench, Agent Banana achieves the best multi-turn consistency and background fidelity (e.g., IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) while remaining competitive on instruction following, and also attains strong performance on standard single-turn editing benchmarks. We hope this work advances reliable, professional-grade agentic image editing and its integration into real workflows.

Agente Banana: Modifica di Immagini ad Alta Fedeltà con Pensiero Agente e Strumentazione

Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

Abstract

Support