Human4DiT : Génération de vidéos humaines en vue libre avec un transformateur de diffusion 4D
Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer
May 27, 2024
papers.authors: Ruizhi Shao, Youxin Pang, Zerong Zheng, Jingxiang Sun, Yebin Liu
cs.AI
papers.abstract
Nous présentons une nouvelle approche pour générer des vidéos humaines de haute qualité, cohérentes spatio-temporellement, à partir d'une seule image sous des angles de vue arbitraires. Notre framework combine les avantages des U-Nets pour l'injection précise de conditions et des transformers de diffusion pour capturer les corrélations globales à travers les angles de vue et le temps. Le cœur de cette architecture est un transformer 4D en cascade qui factorise l'attention à travers les vues, le temps et les dimensions spatiales, permettant une modélisation efficace de l'espace 4D. Un conditionnement précis est réalisé en injectant l'identité humaine, les paramètres de la caméra et les signaux temporels dans les transformers respectifs. Pour entraîner ce modèle, nous avons constitué un ensemble de données multidimensionnel couvrant des images, des vidéos, des données multi-vues et des scans 3D/4D, ainsi qu'une stratégie d'entraînement multidimensionnelle. Notre approche surmonte les limitations des méthodes précédentes basées sur les GAN ou les modèles de diffusion à base d'UNet, qui peinent à gérer les mouvements complexes et les changements de point de vue. À travers des expériences approfondies, nous démontrons la capacité de notre méthode à synthétiser des vidéos humaines réalistes, cohérentes et en vue libre, ouvrant la voie à des applications multimédias avancées dans des domaines tels que la réalité virtuelle et l'animation. Notre site web de projet est https://human4dit.github.io.
English
We present a novel approach for generating high-quality, spatio-temporally
coherent human videos from a single image under arbitrary viewpoints. Our
framework combines the strengths of U-Nets for accurate condition injection and
diffusion transformers for capturing global correlations across viewpoints and
time. The core is a cascaded 4D transformer architecture that factorizes
attention across views, time, and spatial dimensions, enabling efficient
modeling of the 4D space. Precise conditioning is achieved by injecting human
identity, camera parameters, and temporal signals into the respective
transformers. To train this model, we curate a multi-dimensional dataset
spanning images, videos, multi-view data and 3D/4D scans, along with a
multi-dimensional training strategy. Our approach overcomes the limitations of
previous methods based on GAN or UNet-based diffusion models, which struggle
with complex motions and viewpoint changes. Through extensive experiments, we
demonstrate our method's ability to synthesize realistic, coherent and
free-view human videos, paving the way for advanced multimedia applications in
areas such as virtual reality and animation. Our project website is
https://human4dit.github.io.