ChatPaper.aiChatPaper

MotionEdit: 모션 중심 이미지 편집의 벤치마킹 및 학습

MotionEdit: Benchmarking and Learning Motion-Centric Image Editing

December 11, 2025
저자: Yixin Wan, Lei Ke, Wenhao Yu, Kai-Wei Chang, Dong Yu
cs.AI

초록

우리는 동작 중심 이미지 편집, 즉 주체의 동작과 상호작용을 수정하면서도 정체성, 구조 및 물리적 타당성을 보존하는 과제를 위해 새로운 데이터셋인 MotionEdit을 소개합니다. 기존의 정적 외관 변화에 초점을 맞추거나 희소하고 저품질의 동작 편집만을 포함하는 이미지 편집 데이터셋과 달리, MotionEdit은 연속 비디오에서 추출 및 검증된 현실적인 동작 변형을 묘사하는 고품질 이미지 쌍을 제공합니다. 이 새로운 과제는 과학적으로 도전적일 뿐만 아니라 프레임 제어 비디오 합성 및 애니메이션과 같은 다운스트림 애플리케이션을 지원함으로써 실질적으로 중요한 의미를 가집니다. 이 새로운 과제에서 모델 성능을 평가하기 위해, 우리는 동작 중심 편집에서 모델을 테스트하고 생성적, 판별적, 선호도 기반 지표로 모델 성능을 측정하는 벤치마크인 MotionEdit-Bench를 도입했습니다. 벤치마크 결과는 동작 편집이 기존 최첨단 확산 기반 편집 모델들에게 여전히 매우 어려운 과제로 남아 있음을 보여줍니다. 이 격차를 해결하기 위해 우리는 MotionNFT(Motion-guided Negative-aware Fine Tuning)를 제안합니다. 이는 사후 훈련 프레임워크로, 입력 이미지와 모델이 편집한 이미지 간의 모션 플로우가 실제 모션과 얼마나 잘 일치하는지에 기반하여 모션 정렬 보상을 계산하여 모델이 정확한 동작 변형을 학습하도록 유도합니다. FLUX.1 Kontext 및 Qwen-Image-Edit에 대한 광범위한 실험을 통해 MotionNFT가 일반적인 편집 능력을 희생하지 않으면서 동작 편집 과제에서 두 기본 모델의 편집 품질과 모션 충실도를 지속적으로 향상시킴을 확인하여 그 효과성을 입증했습니다.
English
We introduce MotionEdit, a novel dataset for motion-centric image editing-the task of modifying subject actions and interactions while preserving identity, structure, and physical plausibility. Unlike existing image editing datasets that focus on static appearance changes or contain only sparse, low-quality motion edits, MotionEdit provides high-fidelity image pairs depicting realistic motion transformations extracted and verified from continuous videos. This new task is not only scientifically challenging but also practically significant, powering downstream applications such as frame-controlled video synthesis and animation. To evaluate model performance on the novel task, we introduce MotionEdit-Bench, a benchmark that challenges models on motion-centric edits and measures model performance with generative, discriminative, and preference-based metrics. Benchmark results reveal that motion editing remains highly challenging for existing state-of-the-art diffusion-based editing models. To address this gap, we propose MotionNFT (Motion-guided Negative-aware Fine Tuning), a post-training framework that computes motion alignment rewards based on how well the motion flow between input and model-edited images matches the ground-truth motion, guiding models toward accurate motion transformations. Extensive experiments on FLUX.1 Kontext and Qwen-Image-Edit show that MotionNFT consistently improves editing quality and motion fidelity of both base models on the motion editing task without sacrificing general editing ability, demonstrating its effectiveness.
PDF233December 13, 2025