Agent Banana: Hoogwaardige beeldbewerking met agent-denken en gereedschappen

Samenvatting

Wij bestuderen instructiegebaseerde beeldbewerking volgens professionele workflows en identificeren drie hardnekkige uitdagingen: (i) editors passen vaak overbewerking toe, waarbij ze meer content wijzigen dan de bedoeling van de gebruiker is; (ii) bestaande modellen zijn grotendeels enkelvoudig (single-turn), terwijl bewerkingen in meerdere stappen (multi-turn) de getrouwheid van objecten kunnen aantasten; en (iii) evaluatie bij ongeveer 1K-resolutie is niet in lijn met echte workflows die vaak werken met ultrahoogwaardige beelden (bijv. 4K). Wij stellen Agent Banana voor, een hiërarchisch agent-gebaseerd planner-uitvoerder raamwerk voor hoogwaardige, objectbewuste en weloverwogen beeldbewerking. Agent Banana introduceert twee belangrijke mechanismen: (1) Context Folding, dat lange interactiegeschiedenissen comprimeert tot gestructureerd geheugen voor stabiele controle over lange trajecten; en (2) Beeldlaagdecompositie, dat gelokaliseerde bewerkingen op basis van lagen uitvoert om niet-doelgebieden te behouden en tegelijkertijd uitvoer op native resolutie mogelijk maakt. Om rigoureuze evaluatie te ondersteunen, bouwden wij HDD-Bench, een hoogwaardige, op dialoog gebaseerde benchmark met verifieerbare stapsgewijze doelen en native 4K-beelden (11,8 miljoen pixels) voor het diagnosticeren van fouten over lange trajecten. Op HDD-Bench behaalt Agent Banana de beste consistentie over meerdere stappen en achtergrondgetrouwheid (bijv. IC 0,871, SSIM-OM 0,84, LPIPS-OM 0,12), terwijl het concurrerend blijft wat betreft het opvolgen van instructies, en laat het ook sterke prestaties zien op standaard benchmarks voor enkelvoudige bewerking. Wij hopen dat dit werk betrouwbare, professionele agent-gebaseerde beeldbewerking en de integratie daarvan in echte workflows bevordert.

English

We study instruction-based image editing under professional workflows and identify three persistent challenges: (i) editors often over-edit, modifying content beyond the user's intent; (ii) existing models are largely single-turn, while multi-turn edits can alter object faithfulness; and (iii) evaluation at around 1K resolution is misaligned with real workflows that often operate on ultra high-definition images (e.g., 4K). We propose Agent Banana, a hierarchical agentic planner-executor framework for high-fidelity, object-aware, deliberative editing. Agent Banana introduces two key mechanisms: (1) Context Folding, which compresses long interaction histories into structured memory for stable long-horizon control; and (2) Image Layer Decomposition, which performs localized layer-based edits to preserve non-target regions while enabling native-resolution outputs. To support rigorous evaluation, we build HDD-Bench, a high-definition, dialogue-based benchmark featuring verifiable stepwise targets and native 4K images (11.8M pixels) for diagnosing long-horizon failures. On HDD-Bench, Agent Banana achieves the best multi-turn consistency and background fidelity (e.g., IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) while remaining competitive on instruction following, and also attains strong performance on standard single-turn editing benchmarks. We hope this work advances reliable, professional-grade agentic image editing and its integration into real workflows.

Agent Banana: Hoogwaardige beeldbewerking met agent-denken en gereedschappen

Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

Samenvatting

Support