ChatPaper.aiChatPaper

Agent Banana : Édition d'images haute fidélité par la pensée agentique et l'outillage

Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

February 9, 2026
papers.authors: Ruijie Ye, Jiayi Zhang, Zhuoxin Liu, Zihao Zhu, Siyuan Yang, Li Li, Tianfu Fu, Franck Dernoncourt, Yue Zhao, Jiacheng Zhu, Ryan Rossi, Wenhao Chai, Zhengzhong Tu
cs.AI

papers.abstract

Nous étudions l'édition d'images par instruction dans le cadre de flux de travail professionnels et identifions trois défis persistants : (i) les éditeurs modifient souvent excessivement, altérant le contenu au-delà de l'intention de l'utilisateur ; (ii) les modèles existants sont largement monotour, alors que les éditions multitours peuvent compromettre la fidélité des objets ; et (iii) l'évaluation à une résolution d'environ 1K est mal alignée avec les flux de travail réels qui opèrent souvent sur des images en ultra haute définition (par exemple, 4K). Nous proposons Agent Banana, un framework agentique planificateur-exécuteur hiérarchique pour une édition délibérative, fidèle et consciente des objets. Agent Banana introduit deux mécanismes clés : (1) le Repli Contextuel, qui compresse les longues histoires d'interaction en une mémoire structurée pour un contrôle stable à long horizon ; et (2) la Décomposition en Calques d'Image, qui effectue des éditions localisées par calques pour préserver les régions non ciblées tout en permettant des sorties en résolution native. Pour soutenir une évaluation rigoureuse, nous construisons HDD-Bench, un benchmark dialogué en haute définition comportant des cibles étape par étape vérifiables et des images natives 4K (11,8 millions de pixels) pour diagnostiquer les échecs à long horizon. Sur HDD-Bench, Agent Banana obtient la meilleure cohérence multitour et fidélité de l'arrière-plan (par exemple, IC 0,871, SSIM-OM 0,84, LPIPS-OM 0,12) tout en restant compétitif sur le suivi des instructions, et obtient également de solides performances sur les benchmarks d'édition monotour standard. Nous espérons que ces travaux feront progresser l'édition d'images agentique fiable de qualité professionnelle et son intégration dans les flux de travail réels.
English
We study instruction-based image editing under professional workflows and identify three persistent challenges: (i) editors often over-edit, modifying content beyond the user's intent; (ii) existing models are largely single-turn, while multi-turn edits can alter object faithfulness; and (iii) evaluation at around 1K resolution is misaligned with real workflows that often operate on ultra high-definition images (e.g., 4K). We propose Agent Banana, a hierarchical agentic planner-executor framework for high-fidelity, object-aware, deliberative editing. Agent Banana introduces two key mechanisms: (1) Context Folding, which compresses long interaction histories into structured memory for stable long-horizon control; and (2) Image Layer Decomposition, which performs localized layer-based edits to preserve non-target regions while enabling native-resolution outputs. To support rigorous evaluation, we build HDD-Bench, a high-definition, dialogue-based benchmark featuring verifiable stepwise targets and native 4K images (11.8M pixels) for diagnosing long-horizon failures. On HDD-Bench, Agent Banana achieves the best multi-turn consistency and background fidelity (e.g., IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) while remaining competitive on instruction following, and also attains strong performance on standard single-turn editing benchmarks. We hope this work advances reliable, professional-grade agentic image editing and its integration into real workflows.
PDF192February 12, 2026