ChatPaper.aiChatPaper

4Real-Video-V2: Geïntegreerde View-Time Attention en Feedforward Reconstructie voor 4D Scènegeneratie

4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation

June 18, 2025
Auteurs: Chaoyang Wang, Ashkan Mirzaei, Vidit Goel, Willi Menapace, Aliaksandr Siarohin, Avalon Vinella, Michael Vasilkovsky, Ivan Skorokhodov, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Peter Wonka
cs.AI

Samenvatting

We stellen het eerste raamwerk voor dat in staat is om een 4D ruimtelijk-tijdelijk raster van videobeelden en 3D Gaussische deeltjes voor elk tijdstap te berekenen met behulp van een feed-forward architectuur. Onze architectuur bestaat uit twee hoofdcomponenten: een 4D videomodel en een 4D reconstructiemodel. In het eerste deel analyseren we huidige 4D video-diffusiearchitecturen die ruimtelijke en temporele aandacht sequentieel of parallel uitvoeren binnen een tweestroomontwerp. We belichten de beperkingen van bestaande benaderingen en introduceren een nieuwe gefuseerde architectuur die ruimtelijke en temporele aandacht binnen een enkele laag uitvoert. De sleutel tot onze methode is een spaarzaam aandachtspatroon, waarbij tokens aandacht besteden aan andere tokens in hetzelfde frame, op hetzelfde tijdstip of vanuit hetzelfde gezichtspunt. In het tweede deel breiden we bestaande 3D-reconstructiealgoritmen uit door een Gaussische kop, een algoritme voor het vervangen van cameratokens en aanvullende dynamische lagen en training te introduceren. Over het geheel genomen vestigen we een nieuwe standaard voor 4D-generatie, waarbij zowel de visuele kwaliteit als de reconstructiecapaciteit worden verbeterd.
English
We propose the first framework capable of computing a 4D spatio-temporal grid of video frames and 3D Gaussian particles for each time step using a feed-forward architecture. Our architecture has two main components, a 4D video model and a 4D reconstruction model. In the first part, we analyze current 4D video diffusion architectures that perform spatial and temporal attention either sequentially or in parallel within a two-stream design. We highlight the limitations of existing approaches and introduce a novel fused architecture that performs spatial and temporal attention within a single layer. The key to our method is a sparse attention pattern, where tokens attend to others in the same frame, at the same timestamp, or from the same viewpoint. In the second part, we extend existing 3D reconstruction algorithms by introducing a Gaussian head, a camera token replacement algorithm, and additional dynamic layers and training. Overall, we establish a new state of the art for 4D generation, improving both visual quality and reconstruction capability.
PDF102June 24, 2025