Human4DiT: Generazione di Video Umani in Vista Libera con Trasformatore a Diffusione 4D
Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer
May 27, 2024
Autori: Ruizhi Shao, Youxin Pang, Zerong Zheng, Jingxiang Sun, Yebin Liu
cs.AI
Abstract
Presentiamo un approccio innovativo per generare video umani di alta qualità, coerenti spazialmente e temporalmente, a partire da una singola immagine e sotto punti di vista arbitrari. Il nostro framework combina i punti di forza delle U-Net per l'iniezione precisa di condizioni e dei transformer diffusivi per catturare correlazioni globali tra punti di vista e tempo. Il cuore del sistema è un'architettura a transformer 4D a cascata che fattorizza l'attenzione tra viste, tempo e dimensioni spaziali, consentendo una modellazione efficiente dello spazio 4D. Il condizionamento preciso è ottenuto iniettando l'identità umana, i parametri della camera e i segnali temporali nei rispettivi transformer. Per addestrare questo modello, abbiamo curato un dataset multidimensionale che comprende immagini, video, dati multi-vista e scansioni 3D/4D, insieme a una strategia di addestramento multidimensionale. Il nostro approccio supera i limiti dei metodi precedenti basati su GAN o modelli diffusivi UNet, che faticano a gestire movimenti complessi e cambiamenti di punto di vista. Attraverso esperimenti estensivi, dimostriamo la capacità del nostro metodo di sintetizzare video umani realistici, coerenti e a vista libera, aprendo la strada a applicazioni multimediali avanzate in aree come la realtà virtuale e l'animazione. Il sito web del nostro progetto è https://human4dit.github.io.
English
We present a novel approach for generating high-quality, spatio-temporally
coherent human videos from a single image under arbitrary viewpoints. Our
framework combines the strengths of U-Nets for accurate condition injection and
diffusion transformers for capturing global correlations across viewpoints and
time. The core is a cascaded 4D transformer architecture that factorizes
attention across views, time, and spatial dimensions, enabling efficient
modeling of the 4D space. Precise conditioning is achieved by injecting human
identity, camera parameters, and temporal signals into the respective
transformers. To train this model, we curate a multi-dimensional dataset
spanning images, videos, multi-view data and 3D/4D scans, along with a
multi-dimensional training strategy. Our approach overcomes the limitations of
previous methods based on GAN or UNet-based diffusion models, which struggle
with complex motions and viewpoint changes. Through extensive experiments, we
demonstrate our method's ability to synthesize realistic, coherent and
free-view human videos, paving the way for advanced multimedia applications in
areas such as virtual reality and animation. Our project website is
https://human4dit.github.io.