MATRIX: インタラクション認識型ビデオ生成のためのマスクトラックアライメント

要旨

ビデオDiTsはビデオ生成において進化を遂げているものの、複数のインスタンスや主客間の相互作用をモデル化する際には依然として課題を抱えています。これにより、これらのモデルが内部的に相互作用をどのように表現しているかという重要な疑問が生じます。この疑問に答えるため、我々は相互作用を意識したキャプションと複数インスタンスのマスクトラックを備えたビデオデータセット「MATRIX-11K」を構築しました。このデータセットを用いて、ビデオDiTsの2つの視点を体系化する分析を行いました。1つ目は、ビデオからテキストへのアテンションを通じた意味的基盤化（semantic grounding）であり、名詞や動詞のトークンがインスタンスとその関係を捉えているかを評価します。2つ目は、ビデオからビデオへのアテンションを通じた意味的伝播（semantic propagation）であり、インスタンスの結合がフレーム間で持続するかを評価します。これらの効果は、相互作用が支配的な層の一部に集中していることがわかりました。この知見に基づき、我々はMATRIXを導入しました。これは、ビデオDiTsの特定の層におけるアテンションをMATRIX-11Kデータセットの複数インスタンスマスクトラックと整合させるシンプルかつ効果的な正則化手法であり、基盤化と伝播の両方を向上させます。さらに、相互作用を意識したビデオ生成のための評価プロトコル「InterGenEval」を提案しました。実験では、MATRIXが相互作用の忠実度と意味的整合性を向上させ、ドリフトや幻覚を減少させることが確認されました。広範なアブレーション研究により、設計選択の妥当性が検証されました。コードと重みは公開予定です。

English

Video DiTs have advanced video generation, yet they still struggle to model multi-instance or subject-object interactions. This raises a key question: How do these models internally represent interactions? To answer this, we curate MATRIX-11K, a video dataset with interaction-aware captions and multi-instance mask tracks. Using this dataset, we conduct a systematic analysis that formalizes two perspectives of video DiTs: semantic grounding, via video-to-text attention, which evaluates whether noun and verb tokens capture instances and their relations; and semantic propagation, via video-to-video attention, which assesses whether instance bindings persist across frames. We find both effects concentrate in a small subset of interaction-dominant layers. Motivated by this, we introduce MATRIX, a simple and effective regularization that aligns attention in specific layers of video DiTs with multi-instance mask tracks from the MATRIX-11K dataset, enhancing both grounding and propagation. We further propose InterGenEval, an evaluation protocol for interaction-aware video generation. In experiments, MATRIX improves both interaction fidelity and semantic alignment while reducing drift and hallucination. Extensive ablations validate our design choices. Codes and weights will be released.

MATRIX: インタラクション認識型ビデオ生成のためのマスクトラックアライメント

MATRIX: Mask Track Alignment for Interaction-aware Video Generation

要旨

Support