4Real-Video-V2: 融合視点-時間アテンションとフィードフォワード再構成による4Dシーン生成
4Real-Video-V2: Fused View-Time Attention and Feedforward Reconstruction for 4D Scene Generation
June 18, 2025
著者: Chaoyang Wang, Ashkan Mirzaei, Vidit Goel, Willi Menapace, Aliaksandr Siarohin, Avalon Vinella, Michael Vasilkovsky, Ivan Skorokhodov, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Peter Wonka
cs.AI
要旨
本研究では、フィードフォワードアーキテクチャを用いて、各タイムステップにおけるビデオフレームと3Dガウス粒子の4次元時空間グリッドを計算可能な初のフレームワークを提案する。提案アーキテクチャは、4Dビデオモデルと4D再構成モデルの2つの主要コンポーネントから構成される。最初の部分では、空間的および時間的アテンションを逐次的または並列的に実行する現行の4Dビデオ拡散アーキテクチャを分析し、既存手法の限界を指摘する。さらに、単一の層内で空間的および時間的アテンションを実行する新たな融合アーキテクチャを導入する。本手法の鍵は、同一フレーム内、同一タイムスタンプ、または同一視点からのトークンにのみアテンションを行うスパースアテンションパターンである。第二の部分では、既存の3D再構成アルゴリズムを拡張し、ガウシアンヘッド、カメラトークン置換アルゴリズム、および追加の動的層とトレーニングを導入する。全体として、4D生成における新たな最先端技術を確立し、視覚的品質と再構成能力の両方を向上させる。
English
We propose the first framework capable of computing a 4D spatio-temporal grid
of video frames and 3D Gaussian particles for each time step using a
feed-forward architecture. Our architecture has two main components, a 4D video
model and a 4D reconstruction model. In the first part, we analyze current 4D
video diffusion architectures that perform spatial and temporal attention
either sequentially or in parallel within a two-stream design. We highlight the
limitations of existing approaches and introduce a novel fused architecture
that performs spatial and temporal attention within a single layer. The key to
our method is a sparse attention pattern, where tokens attend to others in the
same frame, at the same timestamp, or from the same viewpoint. In the second
part, we extend existing 3D reconstruction algorithms by introducing a Gaussian
head, a camera token replacement algorithm, and additional dynamic layers and
training. Overall, we establish a new state of the art for 4D generation,
improving both visual quality and reconstruction capability.