ByteMorph: 비강체 변형을 활용한 지시어 기반 이미지 편집 벤치마킹
ByteMorph: Benchmarking Instruction-Guided Image Editing with Non-Rigid Motions
June 3, 2025
저자: Di Chang, Mingdeng Cao, Yichun Shi, Bo Liu, Shengqu Cai, Shijie Zhou, Weilin Huang, Gordon Wetzstein, Mohammad Soleymani, Peng Wang
cs.AI
초록
비강체 운동, 카메라 시점 이동, 물체 변형, 인간 관절 움직임, 복잡한 상호작용을 반영한 이미지 편집은 컴퓨터 비전 분야에서 도전적이면서도 충분히 탐구되지 않은 문제로 남아 있다. 기존의 접근법과 데이터셋은 주로 정적 장면이나 강체 변환에 초점을 맞추고 있어, 동적 움직임을 포함한 표현적 편집을 다루는 데 한계가 있다. 이러한 격차를 해결하기 위해, 우리는 비강체 운동에 중점을 둔 지시 기반 이미지 편집을 위한 포괄적인 프레임워크인 ByteMorph를 소개한다. ByteMorph는 대규모 데이터셋인 ByteMorph-6M과 Diffusion Transformer(DiT)를 기반으로 한 강력한 베이스라인 모델인 ByteMorpher로 구성된다. ByteMorph-6M은 훈련을 위한 600만 개 이상의 고해상도 이미지 편집 쌍과 신중하게 선별된 평가 벤치마크인 ByteMorph-Bench를 포함한다. 이 둘은 다양한 환경, 인간 형상, 물체 범주에 걸친 다양한 비강체 운동 유형을 포착한다. 데이터셋은 모션 가이드 데이터 생성, 레이어 합성 기술, 자동 캡션 생성을 통해 다양성, 현실성, 의미적 일관성을 보장하도록 구성되었다. 또한, 우리는 학계와 상업적 영역에서 최근에 제안된 지시 기반 이미지 편집 방법들을 포괄적으로 평가한다.
English
Editing images with instructions to reflect non-rigid motions, camera
viewpoint shifts, object deformations, human articulations, and complex
interactions, poses a challenging yet underexplored problem in computer vision.
Existing approaches and datasets predominantly focus on static scenes or rigid
transformations, limiting their capacity to handle expressive edits involving
dynamic motion. To address this gap, we introduce ByteMorph, a comprehensive
framework for instruction-based image editing with an emphasis on non-rigid
motions. ByteMorph comprises a large-scale dataset, ByteMorph-6M, and a strong
baseline model built upon the Diffusion Transformer (DiT), named ByteMorpher.
ByteMorph-6M includes over 6 million high-resolution image editing pairs for
training, along with a carefully curated evaluation benchmark ByteMorph-Bench.
Both capture a wide variety of non-rigid motion types across diverse
environments, human figures, and object categories. The dataset is constructed
using motion-guided data generation, layered compositing techniques, and
automated captioning to ensure diversity, realism, and semantic coherence. We
further conduct a comprehensive evaluation of recent instruction-based image
editing methods from both academic and commercial domains.