4Real-Video-V2 : Attention Fusionnée Vue-Temps et Reconstruction par Propagation Avant pour la Génération de Scènes 4D
4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation
June 18, 2025
papers.authors: Chaoyang Wang, Ashkan Mirzaei, Vidit Goel, Willi Menapace, Aliaksandr Siarohin, Avalon Vinella, Michael Vasilkovsky, Ivan Skorokhodov, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Peter Wonka
cs.AI
papers.abstract
Nous proposons le premier cadre capable de calculer une grille spatio-temporelle 4D
d’images vidéo et de particules gaussiennes 3D pour chaque pas de temps en utilisant une
architecture à propagation avant. Notre architecture comporte deux composants principaux : un modèle vidéo 4D
et un modèle de reconstruction 4D. Dans la première partie, nous analysons les architectures actuelles de diffusion vidéo 4D
qui effectuent l’attention spatiale et temporelle soit séquentiellement, soit en parallèle dans un design à deux flux. Nous mettons en évidence les
limitations des approches existantes et introduisons une nouvelle architecture fusionnée
qui effectue l’attention spatiale et temporelle au sein d’une seule couche. La clé de
notre méthode réside dans un motif d’attention parcimonieux, où les tokens s’attachent à d’autres dans la
même image, au même instant, ou depuis le même point de vue. Dans la deuxième
partie, nous étendons les algorithmes de reconstruction 3D existants en introduisant une tête gaussienne,
un algorithme de remplacement de token de caméra, ainsi que des couches dynamiques supplémentaires et
un entraînement adapté. Globalement, nous établissons un nouvel état de l’art pour la génération 4D,
améliorant à la fois la qualité visuelle et la capacité de reconstruction.
English
We propose the first framework capable of computing a 4D spatio-temporal grid
of video frames and 3D Gaussian particles for each time step using a
feed-forward architecture. Our architecture has two main components, a 4D video
model and a 4D reconstruction model. In the first part, we analyze current 4D
video diffusion architectures that perform spatial and temporal attention
either sequentially or in parallel within a two-stream design. We highlight the
limitations of existing approaches and introduce a novel fused architecture
that performs spatial and temporal attention within a single layer. The key to
our method is a sparse attention pattern, where tokens attend to others in the
same frame, at the same timestamp, or from the same viewpoint. In the second
part, we extend existing 3D reconstruction algorithms by introducing a Gaussian
head, a camera token replacement algorithm, and additional dynamic layers and
training. Overall, we establish a new state of the art for 4D generation,
improving both visual quality and reconstruction capability.