ChatPaper.aiChatPaper

4Real-Video-V2: Объединенное внимание по видам и времени и реконструкция с прямой связью для генерации 4D-сцен

4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation

June 18, 2025
Авторы: Chaoyang Wang, Ashkan Mirzaei, Vidit Goel, Willi Menapace, Aliaksandr Siarohin, Avalon Vinella, Michael Vasilkovsky, Ivan Skorokhodov, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Peter Wonka
cs.AI

Аннотация

Мы предлагаем первую архитектуру, способную вычислять 4D пространственно-временную сетку видеокадров и 3D частицы Гаусса для каждого временного шага с использованием прямого распространения. Наша архитектура состоит из двух основных компонентов: модели 4D видео и модели 4D реконструкции. В первой части мы анализируем современные архитектуры 4D видео с диффузией, которые выполняют пространственное и временное внимание либо последовательно, либо параллельно в рамках двухпоточного дизайна. Мы выделяем ограничения существующих подходов и представляем новую объединенную архитектуру, которая выполняет пространственное и временное внимание в рамках одного слоя. Ключевым элементом нашего метода является разреженный паттерн внимания, где токены взаимодействуют с другими в том же кадре, в тот же момент времени или с той же точки зрения. Во второй части мы расширяем существующие алгоритмы 3D реконструкции, вводя голову Гаусса, алгоритм замены токенов камеры, а также дополнительные динамические слои и обучение. В целом, мы устанавливаем новый уровень качества для 4D генерации, улучшая как визуальное качество, так и возможности реконструкции.
English
We propose the first framework capable of computing a 4D spatio-temporal grid of video frames and 3D Gaussian particles for each time step using a feed-forward architecture. Our architecture has two main components, a 4D video model and a 4D reconstruction model. In the first part, we analyze current 4D video diffusion architectures that perform spatial and temporal attention either sequentially or in parallel within a two-stream design. We highlight the limitations of existing approaches and introduce a novel fused architecture that performs spatial and temporal attention within a single layer. The key to our method is a sparse attention pattern, where tokens attend to others in the same frame, at the same timestamp, or from the same viewpoint. In the second part, we extend existing 3D reconstruction algorithms by introducing a Gaussian head, a camera token replacement algorithm, and additional dynamic layers and training. Overall, we establish a new state of the art for 4D generation, improving both visual quality and reconstruction capability.
PDF81June 24, 2025