Agente Banana: Edição de Imagens de Alta Fidelidade com Pensamento e Ferramentas Agentes

Resumo

Estudamos a edição de imagens baseada em instruções sob fluxos de trabalho profissionais e identificamos três desafios persistentes: (i) os editores frequentemente excedem a edição, modificando conteúdos além da intenção do usuário; (ii) os modelos existentes são majoritariamente de turno único, enquanto edições multi-turno podem comprometer a fidelidade dos objetos; e (iii) a avaliação em resoluções próximas a 1K está desalinhada com fluxos de trabalho reais que frequentemente operam com imagens em ultra-alta definição (ex.: 4K). Propomos o Agent Banana, uma estrutura agêntica hierárquica planejadora-executora para edição deliberativa, consciente de objetos e de alta fidelidade. O Agent Banana introduz dois mecanismos-chave: (1) Context Folding, que comprime históricos longos de interação em memória estruturada para controle estável de longo horizonte; e (2) Image Layer Decomposition, que realiza edições localizadas baseadas em camadas para preservar regiões não-alvo enquanto permite saídas em resolução nativa. Para suportar avaliação rigorosa, construímos o HDD-Bench, um benchmark baseado em diálogo e em alta definição, com objetivos verificáveis passo a passo e imagens nativas 4K (11.8M pixels) para diagnosticar falhas de longo horizonte. No HDD-Bench, o Agent Banana alcança a melhor consistência multi-turno e fidelidade de fundo (ex.: IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) mantendo competitividade no seguimento de instruções, e também obtém forte desempenho em benchmarks padrão de edição de turno único. Esperamos que este trabalho avance a edição de imagens agêntica confiável de nível profissional e sua integração em fluxos de trabalho reais.

English

We study instruction-based image editing under professional workflows and identify three persistent challenges: (i) editors often over-edit, modifying content beyond the user's intent; (ii) existing models are largely single-turn, while multi-turn edits can alter object faithfulness; and (iii) evaluation at around 1K resolution is misaligned with real workflows that often operate on ultra high-definition images (e.g., 4K). We propose Agent Banana, a hierarchical agentic planner-executor framework for high-fidelity, object-aware, deliberative editing. Agent Banana introduces two key mechanisms: (1) Context Folding, which compresses long interaction histories into structured memory for stable long-horizon control; and (2) Image Layer Decomposition, which performs localized layer-based edits to preserve non-target regions while enabling native-resolution outputs. To support rigorous evaluation, we build HDD-Bench, a high-definition, dialogue-based benchmark featuring verifiable stepwise targets and native 4K images (11.8M pixels) for diagnosing long-horizon failures. On HDD-Bench, Agent Banana achieves the best multi-turn consistency and background fidelity (e.g., IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) while remaining competitive on instruction following, and also attains strong performance on standard single-turn editing benchmarks. We hope this work advances reliable, professional-grade agentic image editing and its integration into real workflows.