단순 편집을 넘어: 복잡한 지시 기반 이미지 편집을 위한 X-Planner
Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing
July 7, 2025
저자: Chun-Hsiao Yeh, Yilin Wang, Nanxuan Zhao, Richard Zhang, Yuheng Li, Yi Ma, Krishna Kumar Singh
cs.AI
초록
최근 확산 기반 이미지 편집 방법들은 텍스트 기반 작업에서 큰 진전을 이루었지만, 복잡하고 간접적인 지시를 해석하는 데 어려움을 겪는 경우가 많습니다. 더욱이, 현재의 모델들은 종종 부적절한 정체성 보존, 의도하지 않은 편집, 또는 수동 마스크에 대한 과도한 의존 등의 문제를 보입니다. 이러한 문제를 해결하기 위해, 우리는 사용자 의도와 편집 모델의 능력을 효과적으로 연결하는 다중 모달 대형 언어 모델(MLLM) 기반의 계획 시스템인 X-Planner를 소개합니다. X-Planner는 사고의 연쇄적 추론을 통해 복잡한 지시를 체계적으로 단순하고 명확한 하위 지시로 분해합니다. 각 하위 지시에 대해 X-Planner는 정확한 편집 유형과 세그멘테이션 마스크를 자동으로 생성하여 수동 개입을 없애고, 지역적이며 정체성을 보존하는 편집을 보장합니다. 또한, 우리는 X-Planner를 훈련시키기 위한 대규모 데이터 생성 자동화 파이프라인을 제안하며, 이는 기존 벤치마크와 우리가 새로 도입한 복잡한 편집 벤치마크 모두에서 최첨단 결과를 달성합니다.
English
Recent diffusion-based image editing methods have significantly advanced
text-guided tasks but often struggle to interpret complex, indirect
instructions. Moreover, current models frequently suffer from poor identity
preservation, unintended edits, or rely heavily on manual masks. To address
these challenges, we introduce X-Planner, a Multimodal Large Language Model
(MLLM)-based planning system that effectively bridges user intent with editing
model capabilities. X-Planner employs chain-of-thought reasoning to
systematically decompose complex instructions into simpler, clear
sub-instructions. For each sub-instruction, X-Planner automatically generates
precise edit types and segmentation masks, eliminating manual intervention and
ensuring localized, identity-preserving edits. Additionally, we propose a novel
automated pipeline for generating large-scale data to train X-Planner which
achieves state-of-the-art results on both existing benchmarks and our newly
introduced complex editing benchmark.