ChatPaper.aiChatPaper

EasyV2V: 고품질 지시 기반 비디오 편집 프레임워크

EasyV2V: A High-quality Instruction-based Video Editing Framework

December 18, 2025
저자: Jinjie Mai, Chaoyang Wang, Guocheng Gordon Qian, Willi Menapace, Sergey Tulyakov, Bernard Ghanem, Peter Wonka, Ashkan Mirzaei
cs.AI

초록

이미지 편집 기술이 빠르게 발전한 반면, 비디오 편집은 일관성, 제어, 일반화 측면에서 어려움을 겪으며 상대적으로 덜 탐구되어 왔습니다. 우리는 데이터, 아키텍처, 제어의 설계 공간을 연구하고 지시 기반 비디오 편집을 위한 간단하면서 효과적인 프레임워크인 EasyV2V를 소개합니다. 데이터 측면에서는, 빠른 역변환을 지원하는 기존 전문가 모델들을 조합하여 다양한 비디오 쌍을 구축하고, 단일 프레임 감독과 공유 아핀 운동을 통한 의사 쌍을 통해 이미지 편집 쌍을 비디오로 확장하며, 조밀하게 캡션된 클립을 채굴하여 비디오 쌍을 생성하고, 편집이 전개되는 방식을 가르치기 위한 전이 감독을 추가합니다. 모델 측면에서는, 사전 학습된 텍스트-투-비디오 모델이 편집 능력을 보유하고 있음을 관찰하여 단순화된 설계를 동기 부여합니다. 경량 LoRA 미세 조정과 함께 조건 설정을 위한 간단한 시퀀스 연결만으로도 강력한 모델을 훈련시키기에 충분합니다. 제어 측면에서는, 단일 마스크 메커니즘을 통해 시공간 제어를 통합하고 선택적 참조 이미지 지원을 제공합니다. 전체적으로 EasyV2V는 비디오+텍스트, 비디오+마스크+텍스트, 비디오+마스크+참조+텍스트 등 유연한 입력과 함께 작동하며, 동시대 및 상용 시스템을 능가하는 최첨단 비디오 편집 결과를 달성합니다. 프로젝트 페이지: https://snap-research.github.io/easyv2v/
English
While image editing has advanced rapidly, video editing remains less explored, facing challenges in consistency, control, and generalization. We study the design space of data, architecture, and control, and introduce EasyV2V, a simple and effective framework for instruction-based video editing. On the data side, we compose existing experts with fast inverses to build diverse video pairs, lift image edit pairs into videos via single-frame supervision and pseudo pairs with shared affine motion, mine dense-captioned clips for video pairs, and add transition supervision to teach how edits unfold. On the model side, we observe that pretrained text-to-video models possess editing capability, motivating a simplified design. Simple sequence concatenation for conditioning with light LoRA fine-tuning suffices to train a strong model. For control, we unify spatiotemporal control via a single mask mechanism and support optional reference images. Overall, EasyV2V works with flexible inputs, e.g., video+text, video+mask+text, video+mask+reference+text, and achieves state-of-the-art video editing results, surpassing concurrent and commercial systems. Project page: https://snap-research.github.io/easyv2v/
PDF102December 20, 2025