ChatPaper.aiChatPaper

SemanticGen: 意味空間におけるビデオ生成

SemanticGen: Video Generation in Semantic Space

December 23, 2025
著者: Jianhong Bai, Xiaoshi Wu, Xintao Wang, Fu Xiao, Yuanxing Zhang, Qinghe Wang, Xiaoyu Shi, Menghan Xia, Zuozhu Liu, Haoji Hu, Pengfei Wan, Kun Gai
cs.AI

要旨

最先端の映像生成モデルは通常、VAE空間における映像潜在変数の分布を学習し、VAEデコーダを用いてピクセルにマッピングする手法を採用しています。このアプローチは高品質な映像生成が可能ですが、収束が遅く、長尺映像の生成には計算コストが膨大になる課題があります。本論文では、意味空間での映像生成によってこれらの制約を解決する新しい手法「SemanticGen」を提案します。私たちの核心的な洞察は、映像が本来持つ冗長性を考慮すると、生成プロセスは双方向注意を用いて大量の低次元映像トークンを直接モデル化するのではなく、コンパクトな高次元意味空間での大域的な計画から始め、その後で高周波数の詳細を付加すべきであるという点です。SemanticGenは2段階の生成プロセスを採用しています。第1段階では、拡散モデルがコンパクトな意味的映像特徴を生成し、映像の大域的なレイアウトを定義します。第2段階では、別の拡散モデルがこれらの意味特徴を条件としてVAE潜在変数を生成し、最終出力を生成します。意味空間での生成は、VAE潜在空間と比較してより高速な収束をもたらすことが確認されています。本手法は長尺映像生成に拡張した場合でも効果的かつ計算効率に優れています。大規模な実験により、SemanticGenが高品質な映像を生成し、最先端の手法や強力なベースラインを凌駕することを実証しました。
English
State-of-the-art video generative models typically learn the distribution of video latents in the VAE space and map them to pixels using a VAE decoder. While this approach can generate high-quality videos, it suffers from slow convergence and is computationally expensive when generating long videos. In this paper, we introduce SemanticGen, a novel solution to address these limitations by generating videos in the semantic space. Our main insight is that, due to the inherent redundancy in videos, the generation process should begin in a compact, high-level semantic space for global planning, followed by the addition of high-frequency details, rather than directly modeling a vast set of low-level video tokens using bi-directional attention. SemanticGen adopts a two-stage generation process. In the first stage, a diffusion model generates compact semantic video features, which define the global layout of the video. In the second stage, another diffusion model generates VAE latents conditioned on these semantic features to produce the final output. We observe that generation in the semantic space leads to faster convergence compared to the VAE latent space. Our method is also effective and computationally efficient when extended to long video generation. Extensive experiments demonstrate that SemanticGen produces high-quality videos and outperforms state-of-the-art approaches and strong baselines.
PDF772December 25, 2025