MATRIX: インタラクション認識型ビデオ生成のためのマスクトラックアライメント
MATRIX: Mask Track Alignment for Interaction-aware Video Generation
October 8, 2025
著者: Siyoon Jin, Seongchan Kim, Dahyun Chung, Jaeho Lee, Hyunwook Choi, Jisu Nam, Jiyoung Kim, Seungryong Kim
cs.AI
要旨
ビデオDiTsはビデオ生成において進化を遂げているものの、複数のインスタンスや主客間の相互作用をモデル化する際には依然として課題を抱えています。これにより、これらのモデルが内部的に相互作用をどのように表現しているかという重要な疑問が生じます。この疑問に答えるため、我々は相互作用を意識したキャプションと複数インスタンスのマスクトラックを備えたビデオデータセット「MATRIX-11K」を構築しました。このデータセットを用いて、ビデオDiTsの2つの視点を体系化する分析を行いました。1つ目は、ビデオからテキストへのアテンションを通じた意味的基盤化(semantic grounding)であり、名詞や動詞のトークンがインスタンスとその関係を捉えているかを評価します。2つ目は、ビデオからビデオへのアテンションを通じた意味的伝播(semantic propagation)であり、インスタンスの結合がフレーム間で持続するかを評価します。これらの効果は、相互作用が支配的な層の一部に集中していることがわかりました。この知見に基づき、我々はMATRIXを導入しました。これは、ビデオDiTsの特定の層におけるアテンションをMATRIX-11Kデータセットの複数インスタンスマスクトラックと整合させるシンプルかつ効果的な正則化手法であり、基盤化と伝播の両方を向上させます。さらに、相互作用を意識したビデオ生成のための評価プロトコル「InterGenEval」を提案しました。実験では、MATRIXが相互作用の忠実度と意味的整合性を向上させ、ドリフトや幻覚を減少させることが確認されました。広範なアブレーション研究により、設計選択の妥当性が検証されました。コードと重みは公開予定です。
English
Video DiTs have advanced video generation, yet they still struggle to model
multi-instance or subject-object interactions. This raises a key question: How
do these models internally represent interactions? To answer this, we curate
MATRIX-11K, a video dataset with interaction-aware captions and multi-instance
mask tracks. Using this dataset, we conduct a systematic analysis that
formalizes two perspectives of video DiTs: semantic grounding, via
video-to-text attention, which evaluates whether noun and verb tokens capture
instances and their relations; and semantic propagation, via video-to-video
attention, which assesses whether instance bindings persist across frames. We
find both effects concentrate in a small subset of interaction-dominant layers.
Motivated by this, we introduce MATRIX, a simple and effective regularization
that aligns attention in specific layers of video DiTs with multi-instance mask
tracks from the MATRIX-11K dataset, enhancing both grounding and propagation.
We further propose InterGenEval, an evaluation protocol for interaction-aware
video generation. In experiments, MATRIX improves both interaction fidelity and
semantic alignment while reducing drift and hallucination. Extensive ablations
validate our design choices. Codes and weights will be released.