ChatPaper.aiChatPaper

4Real-Video-V2: Fusione di Attenzione Vista-Tempo e Ricostruzione Feedforward per la Generazione di Scene 4D

4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation

June 18, 2025
Autori: Chaoyang Wang, Ashkan Mirzaei, Vidit Goel, Willi Menapace, Aliaksandr Siarohin, Avalon Vinella, Michael Vasilkovsky, Ivan Skorokhodov, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Peter Wonka
cs.AI

Abstract

Proponiamo il primo framework in grado di calcolare una griglia spazio-temporale 4D di fotogrammi video e particelle gaussiane 3D per ogni passo temporale utilizzando un'architettura feed-forward. La nostra architettura è composta da due componenti principali: un modello video 4D e un modello di ricostruzione 4D. Nella prima parte, analizziamo le attuali architetture di diffusione video 4D che eseguono l'attenzione spaziale e temporale in sequenza o in parallelo all'interno di un design a due flussi. Evidenziamo i limiti degli approcci esistenti e introduciamo una nuova architettura fusa che esegue l'attenzione spaziale e temporale all'interno di un singolo strato. La chiave del nostro metodo è un pattern di attenzione sparsa, in cui i token si concentrano su altri token nello stesso fotogramma, allo stesso istante temporale o dalla stessa prospettiva. Nella seconda parte, estendiamo gli algoritmi di ricostruzione 3D esistenti introducendo una testa gaussiana, un algoritmo di sostituzione del token della telecamera e ulteriori strati dinamici e formazione. Nel complesso, stabiliamo un nuovo stato dell'arte per la generazione 4D, migliorando sia la qualità visiva che la capacità di ricostruzione.
English
We propose the first framework capable of computing a 4D spatio-temporal grid of video frames and 3D Gaussian particles for each time step using a feed-forward architecture. Our architecture has two main components, a 4D video model and a 4D reconstruction model. In the first part, we analyze current 4D video diffusion architectures that perform spatial and temporal attention either sequentially or in parallel within a two-stream design. We highlight the limitations of existing approaches and introduce a novel fused architecture that performs spatial and temporal attention within a single layer. The key to our method is a sparse attention pattern, where tokens attend to others in the same frame, at the same timestamp, or from the same viewpoint. In the second part, we extend existing 3D reconstruction algorithms by introducing a Gaussian head, a camera token replacement algorithm, and additional dynamic layers and training. Overall, we establish a new state of the art for 4D generation, improving both visual quality and reconstruction capability.
PDF102June 24, 2025