ViFeEdit: 비디오 없이 조정하는 비디오 확산 트랜스포머 튜너
ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer
March 16, 2026
저자: Ruonan Yu, Zhenxiong Tan, Zigeng Chen, Songhua Liu, Xinchao Wang
cs.AI
초록
확산 변환기(Diffusion Transformers, DiTs)는 이미지 및 비디오 생성에서 뛰어난 확장성과 품질을 입증하며, 이를 제어 가능한 생성 및 편집 작업으로 확장하려는 관심이 높아지고 있습니다. 그러나 이미지 분야와 비교할 때 비디오 제어 및 편집 분야의 발전은 여전히 제한적입니다. 이는 주로 짝을 이룬 비디오 데이터의 부족과 비디오 확산 모델 훈련의 높은 계산 비용 때문입니다. 이러한 문제를 해결하기 위해 본 논문에서는 비디오 확산 변환기를 위한 비디오 없는(video-free) 튜닝 프레임워크인 ViFeEdit을 제안합니다. ViFeEdit은 어떠한 형태의 비디오 훈련 데이터도 필요로 하지 않으면서 2D 이미지만으로 적응하여 다목적 비디오 생성 및 편집을 가능하게 합니다. 우리 접근법의 핵심은 현대 비디오 확산 변환기의 전체 3D 어텐션(full 3D attention)에서 공간 독립성을 분리하는 구조적 재매개변수화(architectural reparameterization)에 있습니다. 이를 통해 최소한의 추가 매개변수만으로 시간적 일관성을 유지하면서 시각적으로 정확한 편집이 가능합니다. 더욱이, 이 설계는 노이즈 스케줄링을 위해 별도의 타임스텝 임베딩을 가진 이중 경로 파이프라인에서 작동하여 다양한 조건 신호에 대한 강력한 적응성을 보여줍니다. 광범위한 실험을 통해 우리의 방법이 2D 이미지 데이터에 대한 최소한의 훈련만으로도 제어 가능한 비디오 생성 및 편집의 유망한 결과를 제공함을 입증합니다. 코드는 https://github.com/Lexie-YU/ViFeEdit에서 확인할 수 있습니다.
English
Diffusion Transformers (DiTs) have demonstrated remarkable scalability and quality in image and video generation, prompting growing interest in extending them to controllable generation and editing tasks. However, compared to the image counterparts, progress in video control and editing remains limited, mainly due to the scarcity of paired video data and the high computational cost of training video diffusion models. To address this issue, in this paper, we propose a video-free tuning framework termed ViFeEdit for video diffusion transformers. Without requiring any forms of video training data, ViFeEdit achieves versatile video generation and editing, adapted solely with 2D images. At the core of our approach is an architectural reparameterization that decouples spatial independence from the full 3D attention in modern video diffusion transformers, which enables visually faithful editing while maintaining temporal consistency with only minimal additional parameters. Moreover, this design operates in a dual-path pipeline with separate timestep embeddings for noise scheduling, exhibiting strong adaptability to diverse conditioning signals. Extensive experiments demonstrate that our method delivers promising results of controllable video generation and editing with only minimal training on 2D image data. Codes are available https://github.com/Lexie-YU/ViFeEdit.