ChatPaper.aiChatPaper

4Real-Video-V2: Atención Fusa Vista-Tiempo y Reconstrucción de Avance para la Generación de Escenas 4D

4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation

June 18, 2025
Autores: Chaoyang Wang, Ashkan Mirzaei, Vidit Goel, Willi Menapace, Aliaksandr Siarohin, Avalon Vinella, Michael Vasilkovsky, Ivan Skorokhodov, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Peter Wonka
cs.AI

Resumen

Proponemos el primer marco capaz de calcular una cuadrícula espacio-temporal 4D de fotogramas de video y partículas Gaussianas 3D para cada paso de tiempo utilizando una arquitectura de avance. Nuestra arquitectura consta de dos componentes principales: un modelo de video 4D y un modelo de reconstrucción 4D. En la primera parte, analizamos las arquitecturas actuales de difusión de video 4D que realizan atención espacial y temporal de manera secuencial o en paralelo dentro de un diseño de dos flujos. Destacamos las limitaciones de los enfoques existentes e introducimos una arquitectura fusionada novedosa que realiza atención espacial y temporal dentro de una sola capa. La clave de nuestro método es un patrón de atención disperso, donde los tokens atienden a otros en el mismo fotograma, en el mismo instante de tiempo o desde el mismo punto de vista. En la segunda parte, extendemos los algoritmos de reconstrucción 3D existentes mediante la introducción de una cabeza Gaussiana, un algoritmo de reemplazo de tokens de cámara y capas dinámicas adicionales junto con entrenamiento. En general, establecemos un nuevo estado del arte para la generación 4D, mejorando tanto la calidad visual como la capacidad de reconstrucción.
English
We propose the first framework capable of computing a 4D spatio-temporal grid of video frames and 3D Gaussian particles for each time step using a feed-forward architecture. Our architecture has two main components, a 4D video model and a 4D reconstruction model. In the first part, we analyze current 4D video diffusion architectures that perform spatial and temporal attention either sequentially or in parallel within a two-stream design. We highlight the limitations of existing approaches and introduce a novel fused architecture that performs spatial and temporal attention within a single layer. The key to our method is a sparse attention pattern, where tokens attend to others in the same frame, at the same timestamp, or from the same viewpoint. In the second part, we extend existing 3D reconstruction algorithms by introducing a Gaussian head, a camera token replacement algorithm, and additional dynamic layers and training. Overall, we establish a new state of the art for 4D generation, improving both visual quality and reconstruction capability.
PDF81June 24, 2025