Human4DiT : Génération de vidéos humaines en vue libre avec un transformateur de diffusion 4D

papers.abstract

Nous présentons une nouvelle approche pour générer des vidéos humaines de haute qualité, cohérentes spatio-temporellement, à partir d'une seule image sous des angles de vue arbitraires. Notre framework combine les avantages des U-Nets pour l'injection précise de conditions et des transformers de diffusion pour capturer les corrélations globales à travers les angles de vue et le temps. Le cœur de cette architecture est un transformer 4D en cascade qui factorise l'attention à travers les vues, le temps et les dimensions spatiales, permettant une modélisation efficace de l'espace 4D. Un conditionnement précis est réalisé en injectant l'identité humaine, les paramètres de la caméra et les signaux temporels dans les transformers respectifs. Pour entraîner ce modèle, nous avons constitué un ensemble de données multidimensionnel couvrant des images, des vidéos, des données multi-vues et des scans 3D/4D, ainsi qu'une stratégie d'entraînement multidimensionnelle. Notre approche surmonte les limitations des méthodes précédentes basées sur les GAN ou les modèles de diffusion à base d'UNet, qui peinent à gérer les mouvements complexes et les changements de point de vue. À travers des expériences approfondies, nous démontrons la capacité de notre méthode à synthétiser des vidéos humaines réalistes, cohérentes et en vue libre, ouvrant la voie à des applications multimédias avancées dans des domaines tels que la réalité virtuelle et l'animation. Notre site web de projet est https://human4dit.github.io.

English

We present a novel approach for generating high-quality, spatio-temporally coherent human videos from a single image under arbitrary viewpoints. Our framework combines the strengths of U-Nets for accurate condition injection and diffusion transformers for capturing global correlations across viewpoints and time. The core is a cascaded 4D transformer architecture that factorizes attention across views, time, and spatial dimensions, enabling efficient modeling of the 4D space. Precise conditioning is achieved by injecting human identity, camera parameters, and temporal signals into the respective transformers. To train this model, we curate a multi-dimensional dataset spanning images, videos, multi-view data and 3D/4D scans, along with a multi-dimensional training strategy. Our approach overcomes the limitations of previous methods based on GAN or UNet-based diffusion models, which struggle with complex motions and viewpoint changes. Through extensive experiments, we demonstrate our method's ability to synthesize realistic, coherent and free-view human videos, paving the way for advanced multimedia applications in areas such as virtual reality and animation. Our project website is https://human4dit.github.io.

Human4DiT : Génération de vidéos humaines en vue libre avec un transformateur de diffusion 4D

Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer

papers.abstract

Support