ChatPaper.aiChatPaper

4Real-Video-V2: Fusionierte Ansicht-Zeit-Attention und Feedforward-Rekonstruktion für die 4D-Szenengenerierung

4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation

June 18, 2025
Autoren: Chaoyang Wang, Ashkan Mirzaei, Vidit Goel, Willi Menapace, Aliaksandr Siarohin, Avalon Vinella, Michael Vasilkovsky, Ivan Skorokhodov, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Peter Wonka
cs.AI

Zusammenfassung

Wir präsentieren das erste Framework, das in der Lage ist, ein 4D spatio-temporales Gitter von Videobildern und 3D-Gauß-Partikeln für jeden Zeitschritt mithilfe einer Feedforward-Architektur zu berechnen. Unsere Architektur besteht aus zwei Hauptkomponenten: einem 4D-Videomodell und einem 4D-Rekonstruktionsmodell. Im ersten Teil analysieren wir aktuelle 4D-Video-Diffusionsarchitekturen, die räumliche und zeitliche Aufmerksamkeit entweder sequenziell oder parallel innerhalb eines Zwei-Stream-Designs durchführen. Wir heben die Grenzen bestehender Ansätze hervor und führen eine neuartige fusionierte Architektur ein, die räumliche und zeitliche Aufmerksamkeit innerhalb einer einzigen Schicht durchführt. Der Schlüssel zu unserer Methode ist ein sparsames Aufmerksamkeitsmuster, bei dem Token entweder andere im selben Bild, zum selben Zeitpunkt oder aus demselben Blickwinkel berücksichtigen. Im zweiten Teil erweitern wir bestehende 3D-Rekonstruktionsalgorithmen durch die Einführung eines Gauß-Kopfs, eines Kamera-Token-Ersetzungsalgorithmus sowie zusätzlicher dynamischer Schichten und Trainingsmethoden. Insgesamt etablieren wir einen neuen Stand der Technik für die 4D-Generierung, wodurch sowohl die visuelle Qualität als auch die Rekonstruktionsfähigkeit verbessert werden.
English
We propose the first framework capable of computing a 4D spatio-temporal grid of video frames and 3D Gaussian particles for each time step using a feed-forward architecture. Our architecture has two main components, a 4D video model and a 4D reconstruction model. In the first part, we analyze current 4D video diffusion architectures that perform spatial and temporal attention either sequentially or in parallel within a two-stream design. We highlight the limitations of existing approaches and introduce a novel fused architecture that performs spatial and temporal attention within a single layer. The key to our method is a sparse attention pattern, where tokens attend to others in the same frame, at the same timestamp, or from the same viewpoint. In the second part, we extend existing 3D reconstruction algorithms by introducing a Gaussian head, a camera token replacement algorithm, and additional dynamic layers and training. Overall, we establish a new state of the art for 4D generation, improving both visual quality and reconstruction capability.
PDF81June 24, 2025