ChatPaper.aiChatPaper

Агент Banana: высококачественное редактирование изображений с помощью агентного мышления и инструментария

Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

February 9, 2026
Авторы: Ruijie Ye, Jiayi Zhang, Zhuoxin Liu, Zihao Zhu, Siyuan Yang, Li Li, Tianfu Fu, Franck Dernoncourt, Yue Zhao, Jiacheng Zhu, Ryan Rossi, Wenhao Chai, Zhengzhong Tu
cs.AI

Аннотация

Мы исследуем редактирование изображений на основе инструкций в рамках профессиональных рабочих процессов и выделяем три устойчивые проблемы: (i) редакторы часто вносят избыточные правки, изменяя содержимое сверх намерения пользователя; (ii) существующие модели в основном одношаговые, тогда как многошаговое редактирование может нарушать достоверность объектов; (iii) оценка на разрешении около 1K не соответствует реальным рабочим процессам, которые часто работают с изображениями сверхвысокой четкости (например, 4K). Мы предлагаем Agent Banana — иерархическую агентскую планерно-исполнительную структуру для высокоточного, объектно-ориентированного, обдуманного редактирования. Agent Banana вводит два ключевых механизма: (1) Свертку контекста, которая сжимает длинные истории взаимодействий в структурированную память для стабильного долгосрочного контроля; и (2) Декомпозицию слоев изображения, которая выполняет локализованное послойное редактирование для сохранения нетронутых областей с одновременным выводом изображения в нативном разрешении. Для строгой оценки мы создали HDD-Bench — диалоговый бенчмарк высокой четкости с верифицируемыми пошаговыми целями и нативными 4K-изображениями (11.8 млн пикселей) для диагностики долгосрочных сбоев. На HDD-Bench Agent Banana демонстрирует наилучшую согласованность при многошаговом редактировании и точность фона (например, IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12), оставаясь конкурентоспособным по следованию инструкциям, а также показывает высокие результаты на стандартных бенчмарках одношагового редактирования. Мы надеемся, что эта работа способствует развитию надежного, профессионального агентского редактирования изображений и его интеграции в реальные рабочие процессы.
English
We study instruction-based image editing under professional workflows and identify three persistent challenges: (i) editors often over-edit, modifying content beyond the user's intent; (ii) existing models are largely single-turn, while multi-turn edits can alter object faithfulness; and (iii) evaluation at around 1K resolution is misaligned with real workflows that often operate on ultra high-definition images (e.g., 4K). We propose Agent Banana, a hierarchical agentic planner-executor framework for high-fidelity, object-aware, deliberative editing. Agent Banana introduces two key mechanisms: (1) Context Folding, which compresses long interaction histories into structured memory for stable long-horizon control; and (2) Image Layer Decomposition, which performs localized layer-based edits to preserve non-target regions while enabling native-resolution outputs. To support rigorous evaluation, we build HDD-Bench, a high-definition, dialogue-based benchmark featuring verifiable stepwise targets and native 4K images (11.8M pixels) for diagnosing long-horizon failures. On HDD-Bench, Agent Banana achieves the best multi-turn consistency and background fidelity (e.g., IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) while remaining competitive on instruction following, and also attains strong performance on standard single-turn editing benchmarks. We hope this work advances reliable, professional-grade agentic image editing and its integration into real workflows.
PDF192February 12, 2026