ViFeEdit: Een videovrije afstemmer van uw videodiffusietransformer

Samenvatting

Diffusion Transformers (DiTs) hebben opmerkelijke schaalbaarheid en kwaliteit getoond bij de generatie van afbeeldingen en video's, wat een groeiende interesse heeft gewekt om ze uit te breiden naar beheerbare generatie- en bewerkingstaken. In vergelijking met hun tegenhangers voor afbeeldingen blijft de vooruitgang op het gebied van videocontrole en -bewerking echter beperkt, voornamelijk vanwege de schaarste aan gepaarde videogegevens en de hoge rekenkosten van het trainen van videodiffusiemodellen. Om dit probleem aan te pakken, stellen we in dit artikel een videovrij afstembare framework voor, genaamd ViFeEdit, voor videodiffusietransformers. Zonder enige vorm van videotrainingsgegevens nodig te hebben, bereikt ViFeEdit veelzijdige videogeneratie en -bewerking, uitsluitend aangepast met 2D-afbeeldingen. De kern van onze aanpak is een architecturale herparameterisatie die ruimtelijke onafhankelijkheid ontkoppelt van de volledige 3D-aandacht in moderne videodiffusietransformers. Dit maakt visueel getrouwe bewerking mogelijk met behoud van temporele consistentie, met slechts minimale extra parameters. Bovendien werkt dit ontwerp in een dual-path pijplijn met gescheiden tijdstap-embeddingen voor ruisplanning, wat een sterke aanpassingsvermogen vertoont aan diverse conditioneringssignalen. Uitgebreide experimenten tonen aan dat onze methode veelbelovende resultaten oplevert voor beheerbare videogeneratie en -bewerking met slechts minimale training op 2D-afbeeldingsgegevens. Code is beschikbaar op https://github.com/Lexie-YU/ViFeEdit.

English

Diffusion Transformers (DiTs) have demonstrated remarkable scalability and quality in image and video generation, prompting growing interest in extending them to controllable generation and editing tasks. However, compared to the image counterparts, progress in video control and editing remains limited, mainly due to the scarcity of paired video data and the high computational cost of training video diffusion models. To address this issue, in this paper, we propose a video-free tuning framework termed ViFeEdit for video diffusion transformers. Without requiring any forms of video training data, ViFeEdit achieves versatile video generation and editing, adapted solely with 2D images. At the core of our approach is an architectural reparameterization that decouples spatial independence from the full 3D attention in modern video diffusion transformers, which enables visually faithful editing while maintaining temporal consistency with only minimal additional parameters. Moreover, this design operates in a dual-path pipeline with separate timestep embeddings for noise scheduling, exhibiting strong adaptability to diverse conditioning signals. Extensive experiments demonstrate that our method delivers promising results of controllable video generation and editing with only minimal training on 2D image data. Codes are available https://github.com/Lexie-YU/ViFeEdit.

ViFeEdit: Een videovrije afstemmer van uw videodiffusietransformer

ViFeEdit: A Video-Free Tuner of Your Video Diffusion Transformer

Samenvatting

Support