ViFeEdit: Ein videofreier Tuner für Ihren Video-Diffusion-Transformer
ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer
March 16, 2026
Autoren: Ruonan Yu, Zhenxiong Tan, Zigeng Chen, Songhua Liu, Xinchao Wang
cs.AI
Zusammenfassung
Diffusion Transformer (DiTs) haben bemerkenswerte Skalierbarkeit und Qualität in der Bild- und Videogenerierung demonstriert, was das wachsende Interesse an ihrer Erweiterung für kontrollierbare Generierungs- und Bearbeitungsaufgaben weckt. Im Vergleich zu ihren Pendants in der Bildverarbeitung sind die Fortschritte bei der Videokontrolle und -bearbeitung jedoch nach wie vor begrenzt, hauptsächlich aufgrund der Knappheit gepaarter Videodaten und der hohen Rechenkosten für das Training von Videodiffusionsmodellen. Um dieses Problem zu lösen, schlagen wir in diesem Artikel ein videofreies Feinabstimmungsframework namens ViFeEdit für Videodiffusion-Transformer vor. Ohne jegliche Form von Videotrainingsdaten zu benötigen, erreicht ViFeEdit eine vielseitige Videogenerierung und -bearbeitung, die ausschließlich mit 2D-Bildern adaptiert wird. Kern unseres Ansatzes ist eine architektonische Neuparametrisierung, die die räumliche Unabhängigkeit von der vollständigen 3D-Aufmerksamkeit in modernen Videodiffusion-Transformer-Modellen entkoppelt. Dies ermöglicht eine visuell originalgetreue Bearbeitung bei gleichzeitiger Aufrechterhaltung der zeitlichen Konsistenz mit nur minimalen zusätzlichen Parametern. Darüber hinaus arbeitet dieses Design in einer Dual-Path-Pipeline mit separaten Zeitschritt-Einbettungen für die Rauschplanung und zeigt eine starke Anpassungsfähigkeit an diverse Konditionierungssignale. Umfangreiche Experimente belegen, dass unsere Methode vielversprechende Ergebnisse bei der kontrollierbaren Videogenerierung und -bearbeitung liefert, obwohl sie nur mit minimalem Training auf 2D-Bilddaten auskommt. Der Code ist verfügbar unter https://github.com/Lexie-YU/ViFeEdit.
English
Diffusion Transformers (DiTs) have demonstrated remarkable scalability and quality in image and video generation, prompting growing interest in extending them to controllable generation and editing tasks. However, compared to the image counterparts, progress in video control and editing remains limited, mainly due to the scarcity of paired video data and the high computational cost of training video diffusion models. To address this issue, in this paper, we propose a video-free tuning framework termed ViFeEdit for video diffusion transformers. Without requiring any forms of video training data, ViFeEdit achieves versatile video generation and editing, adapted solely with 2D images. At the core of our approach is an architectural reparameterization that decouples spatial independence from the full 3D attention in modern video diffusion transformers, which enables visually faithful editing while maintaining temporal consistency with only minimal additional parameters. Moreover, this design operates in a dual-path pipeline with separate timestep embeddings for noise scheduling, exhibiting strong adaptability to diverse conditioning signals. Extensive experiments demonstrate that our method delivers promising results of controllable video generation and editing with only minimal training on 2D image data. Codes are available https://github.com/Lexie-YU/ViFeEdit.