ChatPaper.aiChatPaper

에이전트 바나나: 에이전트 사고와 도구 활용을 통한 고품질 이미지 편집

Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

February 9, 2026
저자: Ruijie Ye, Jiayi Zhang, Zhuoxin Liu, Zihao Zhu, Siyuan Yang, Li Li, Tianfu Fu, Franck Dernoncourt, Yue Zhao, Jiacheng Zhu, Ryan Rossi, Wenhao Chai, Zhengzhong Tu
cs.AI

초록

우리는 전문가 워크플로우 기반 이미지 편집을 연구하며 다음과 같은 세 가지 지속적인 과제를 확인했습니다: (i) 편집자가 사용자의 의도를 넘어서 콘텐츠를 수정하는 과편집(over-edit) 문제, (ii) 기존 모델이 대부분 단일 회차(single-turn)에 그쳐 다회차 편집 시 객체 정확도(object faithfulness)가 저하되는 문제, (iii) 약 1K 해상도에서의 평가가 실제 4K 등 초고해상도 이미지를 다루는 워크플로우와 동떨어진 문제입니다. 이를 해결하기 위해 우리는 고정밀도, 객체 인식, 숙고적(deliberative) 편집을 위한 계층적 에이전트 기반 플래너-실행자 프레임워크인 Agent Banana를 제안합니다. Agent Banana는 두 가지 핵심 메커니즘을 도입합니다: (1) 긴 상호작용 기록을 구조화된 메모리로 압축하여 안정적인 장기적 제어를 가능하게 하는 컨텍스트 폴딩(Context Folding)과 (2) 비대상 영역을 보존하면서 원본 해상도 출력을 가능하게 하는 지역적 레이어 기반 편집을 수행하는 이미지 레이어 분해(Image Layer Decomposition)입니다. 엄격한 평가를 지원하기 위해 검증 가능한 단계별 목표와 원본 4K 이미지(1,180만 화소)를 특징으로 하는 고해상도 대화형 벤치마크 HDD-Bench를 구축하여 장기적 실패 요인을 진단합니다. HDD-Bench에서 Agent Banana는 최고 수준의 다회차 일관성과 배경 정확도(예: IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12)를 달성하면서도 지시 따르기 평가에서 경쟁력을 유지했으며, 기존 단일 회차 편집 벤치마크에서도 강력한 성능을 보였습니다. 본 연구가 신뢰할 수 있는 전문가급 에이전트 이미지 편집과 실제 워크플로우 통합에 기여하기를 바랍니다.
English
We study instruction-based image editing under professional workflows and identify three persistent challenges: (i) editors often over-edit, modifying content beyond the user's intent; (ii) existing models are largely single-turn, while multi-turn edits can alter object faithfulness; and (iii) evaluation at around 1K resolution is misaligned with real workflows that often operate on ultra high-definition images (e.g., 4K). We propose Agent Banana, a hierarchical agentic planner-executor framework for high-fidelity, object-aware, deliberative editing. Agent Banana introduces two key mechanisms: (1) Context Folding, which compresses long interaction histories into structured memory for stable long-horizon control; and (2) Image Layer Decomposition, which performs localized layer-based edits to preserve non-target regions while enabling native-resolution outputs. To support rigorous evaluation, we build HDD-Bench, a high-definition, dialogue-based benchmark featuring verifiable stepwise targets and native 4K images (11.8M pixels) for diagnosing long-horizon failures. On HDD-Bench, Agent Banana achieves the best multi-turn consistency and background fidelity (e.g., IC 0.871, SSIM-OM 0.84, LPIPS-OM 0.12) while remaining competitive on instruction following, and also attains strong performance on standard single-turn editing benchmarks. We hope this work advances reliable, professional-grade agentic image editing and its integration into real workflows.
PDF192February 12, 2026