ChatPaper.aiChatPaper

4Real-Video-V2: Atenção Fundida de Visão-Tempo e Reconstrução Feedforward para Geração de Cenas 4D

4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation

June 18, 2025
Autores: Chaoyang Wang, Ashkan Mirzaei, Vidit Goel, Willi Menapace, Aliaksandr Siarohin, Avalon Vinella, Michael Vasilkovsky, Ivan Skorokhodov, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Peter Wonka
cs.AI

Resumo

Propomos o primeiro framework capaz de computar uma grade espaço-temporal 4D de quadros de vídeo e partículas Gaussianas 3D para cada passo de tempo usando uma arquitetura feed-forward. Nossa arquitetura possui dois componentes principais: um modelo de vídeo 4D e um modelo de reconstrução 4D. Na primeira parte, analisamos as arquiteturas atuais de difusão de vídeo 4D que realizam atenção espacial e temporal de forma sequencial ou paralela dentro de um design de dois fluxos. Destacamos as limitações das abordagens existentes e introduzimos uma nova arquitetura fundida que realiza atenção espacial e temporal dentro de uma única camada. A chave do nosso método é um padrão de atenção esparsa, onde os tokens atendem a outros no mesmo quadro, no mesmo instante de tempo ou da mesma perspectiva. Na segunda parte, estendemos os algoritmos existentes de reconstrução 3D ao introduzir um cabeçalho Gaussiano, um algoritmo de substituição de tokens de câmera e camadas dinâmicas adicionais com treinamento. No geral, estabelecemos um novo estado da arte para geração 4D, melhorando tanto a qualidade visual quanto a capacidade de reconstrução.
English
We propose the first framework capable of computing a 4D spatio-temporal grid of video frames and 3D Gaussian particles for each time step using a feed-forward architecture. Our architecture has two main components, a 4D video model and a 4D reconstruction model. In the first part, we analyze current 4D video diffusion architectures that perform spatial and temporal attention either sequentially or in parallel within a two-stream design. We highlight the limitations of existing approaches and introduce a novel fused architecture that performs spatial and temporal attention within a single layer. The key to our method is a sparse attention pattern, where tokens attend to others in the same frame, at the same timestamp, or from the same viewpoint. In the second part, we extend existing 3D reconstruction algorithms by introducing a Gaussian head, a camera token replacement algorithm, and additional dynamic layers and training. Overall, we establish a new state of the art for 4D generation, improving both visual quality and reconstruction capability.
PDF102June 24, 2025