Agente Banana: Edición de Imágenes de Alta Fidelidad con Pensamiento y Herramientas Agentes
Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling
February 9, 2026
Autores: Ruijie Ye, Jiayi Zhang, Zhuoxin Liu, Zihao Zhu, Siyuan Yang, Li Li, Tianfu Fu, Franck Dernoncourt, Yue Zhao, Jiacheng Zhu, Ryan Rossi, Wenhao Chai, Zhengzhong Tu
cs.AI
Resumen
Estudiamos la edición de imágenes basada en instrucciones dentro de flujos de trabajo profesionales e identificamos tres desafíos persistentes: (i) los editores suelen sobre-editar, modificando contenido más allá de la intención del usuario; (ii) los modelos existentes son mayoritariamente de un solo turno, mientras que las ediciones multi-turno pueden alterar la fidelidad de los objetos; y (iii) la evaluación en resoluciones cercanas a 1K está desalineada con los flujos de trabajo reales que suelen operar con imágenes de ultra alta definición (por ejemplo, 4K). Proponemos Agent Banana, un marco agéntico jerárquico planificador-ejecutor para una edición deliberativa, de alta fidelidad y consciente de los objetos. Agent Banana introduce dos mecanismos clave: (1) el Plegado de Contexto, que comprime historiales largos de interacción en una memoria estructurada para un control estable a largo plazo; y (2) la Descomposición en Capas de Imagen, que realiza ediciones localizadas basadas en capas para preservar las regiones no objetivo mientras permite salidas en resolución nativa. Para respaldar una evaluación rigurosa, construimos HDD-Bench, un benchmark basado en diálogos y de alta definición, que cuenta con objetivos verificables paso a paso e imágenes nativas 4K (11.8M píxeles) para diagnosticar fallos de largo horizonte. En HDD-Bench, Agent Banana logra la mejor consistencia multi-turno y fidelidad del fondo (por ejemplo, IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) manteniéndose competitivo en el seguimiento de instrucciones, y también obtiene un rendimiento sólido en benchmarks estándar de edición de un solo turno. Esperamos que este trabajo impulse la edición de imágenes agéntica confiable, de grado profesional, y su integración en flujos de trabajo reales.
English
We study instruction-based image editing under professional workflows and identify three persistent challenges: (i) editors often over-edit, modifying content beyond the user's intent; (ii) existing models are largely single-turn, while multi-turn edits can alter object faithfulness; and (iii) evaluation at around 1K resolution is misaligned with real workflows that often operate on ultra high-definition images (e.g., 4K). We propose Agent Banana, a hierarchical agentic planner-executor framework for high-fidelity, object-aware, deliberative editing. Agent Banana introduces two key mechanisms: (1) Context Folding, which compresses long interaction histories into structured memory for stable long-horizon control; and (2) Image Layer Decomposition, which performs localized layer-based edits to preserve non-target regions while enabling native-resolution outputs. To support rigorous evaluation, we build HDD-Bench, a high-definition, dialogue-based benchmark featuring verifiable stepwise targets and native 4K images (11.8M pixels) for diagnosing long-horizon failures. On HDD-Bench, Agent Banana achieves the best multi-turn consistency and background fidelity (e.g., IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) while remaining competitive on instruction following, and also attains strong performance on standard single-turn editing benchmarks. We hope this work advances reliable, professional-grade agentic image editing and its integration into real workflows.