TransPixar: Vooruitgang in Tekst-naar-Video Generatie met Transparantie
TransPixar: Advancing Text-to-Video Generation with Transparency
January 6, 2025
Auteurs: Luozhou Wang, Yijun Li, Zhifei Chen, Jui-Hsien Wang, Zhifei Zhang, He Zhang, Zhe Lin, Yingcong Chen
cs.AI
Samenvatting
Text-to-video generatieve modellen hebben aanzienlijke vooruitgang geboekt, waardoor diverse toepassingen mogelijk zijn op het gebied van entertainment, reclame en onderwijs. Het genereren van RGBA-video, waarbij alpha-kanalen voor transparantie zijn inbegrepen, blijft echter een uitdaging vanwege beperkte datasets en de moeilijkheid om bestaande modellen aan te passen. Alpha-kanalen zijn cruciaal voor visuele effecten (VFX), waardoor transparante elementen zoals rook en reflecties naadloos in scènes kunnen worden gemengd. We introduceren TransPixar, een methode om vooraf getrainde videomodellen uit te breiden voor RGBA-generatie met behoud van de oorspronkelijke RGB-mogelijkheden. TransPixar maakt gebruik van een diffusie-transformator (DiT) architectuur, waarbij alpha-specifieke tokens worden opgenomen en LoRA-gebaseerde fijnafstemming wordt gebruikt om RGB- en alpha-kanalen gezamenlijk met hoge consistentie te genereren. Door aandachtsmechanismen te optimaliseren, behoudt TransPixar de sterke punten van het oorspronkelijke RGB-model en bereikt het een sterke afstemming tussen RGB- en alpha-kanalen ondanks beperkte trainingsgegevens. Onze aanpak genereert effectief diverse en consistente RGBA-video's, waarmee de mogelijkheden voor VFX en interactieve contentcreatie worden uitgebreid.
English
Text-to-video generative models have made significant strides, enabling
diverse applications in entertainment, advertising, and education. However,
generating RGBA video, which includes alpha channels for transparency, remains
a challenge due to limited datasets and the difficulty of adapting existing
models. Alpha channels are crucial for visual effects (VFX), allowing
transparent elements like smoke and reflections to blend seamlessly into
scenes. We introduce TransPixar, a method to extend pretrained video models for
RGBA generation while retaining the original RGB capabilities. TransPixar
leverages a diffusion transformer (DiT) architecture, incorporating
alpha-specific tokens and using LoRA-based fine-tuning to jointly generate RGB
and alpha channels with high consistency. By optimizing attention mechanisms,
TransPixar preserves the strengths of the original RGB model and achieves
strong alignment between RGB and alpha channels despite limited training data.
Our approach effectively generates diverse and consistent RGBA videos,
advancing the possibilities for VFX and interactive content creation.Summary
AI-Generated Summary