단순 편집을 넘어: 복잡한 지시 기반 이미지 편집을 위한 X-Planner

초록

최근 확산 기반 이미지 편집 방법들은 텍스트 기반 작업에서 큰 진전을 이루었지만, 복잡하고 간접적인 지시를 해석하는 데 어려움을 겪는 경우가 많습니다. 더욱이, 현재의 모델들은 종종 부적절한 정체성 보존, 의도하지 않은 편집, 또는 수동 마스크에 대한 과도한 의존 등의 문제를 보입니다. 이러한 문제를 해결하기 위해, 우리는 사용자 의도와 편집 모델의 능력을 효과적으로 연결하는 다중 모달 대형 언어 모델(MLLM) 기반의 계획 시스템인 X-Planner를 소개합니다. X-Planner는 사고의 연쇄적 추론을 통해 복잡한 지시를 체계적으로 단순하고 명확한 하위 지시로 분해합니다. 각 하위 지시에 대해 X-Planner는 정확한 편집 유형과 세그멘테이션 마스크를 자동으로 생성하여 수동 개입을 없애고, 지역적이며 정체성을 보존하는 편집을 보장합니다. 또한, 우리는 X-Planner를 훈련시키기 위한 대규모 데이터 생성 자동화 파이프라인을 제안하며, 이는 기존 벤치마크와 우리가 새로 도입한 복잡한 편집 벤치마크 모두에서 최첨단 결과를 달성합니다.

English

Recent diffusion-based image editing methods have significantly advanced text-guided tasks but often struggle to interpret complex, indirect instructions. Moreover, current models frequently suffer from poor identity preservation, unintended edits, or rely heavily on manual masks. To address these challenges, we introduce X-Planner, a Multimodal Large Language Model (MLLM)-based planning system that effectively bridges user intent with editing model capabilities. X-Planner employs chain-of-thought reasoning to systematically decompose complex instructions into simpler, clear sub-instructions. For each sub-instruction, X-Planner automatically generates precise edit types and segmentation masks, eliminating manual intervention and ensuring localized, identity-preserving edits. Additionally, we propose a novel automated pipeline for generating large-scale data to train X-Planner which achieves state-of-the-art results on both existing benchmarks and our newly introduced complex editing benchmark.

단순 편집을 넘어: 복잡한 지시 기반 이미지 편집을 위한 X-Planner

Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing

초록

Support