MATRIX: Mask Track Alignment voor Interactiebewuste Videogeneratie
MATRIX: Mask Track Alignment for Interaction-aware Video Generation
October 8, 2025
Auteurs: Siyoon Jin, Seongchan Kim, Dahyun Chung, Jaeho Lee, Hyunwook Choi, Jisu Nam, Jiyoung Kim, Seungryong Kim
cs.AI
Samenvatting
Video DiTs hebben vooruitgang geboekt in videogeneratie, maar ze hebben nog steeds moeite met het modelleren van multi-instanties of subject-object interacties. Dit roept een belangrijke vraag op: Hoe representeren deze modellen interacties intern? Om dit te beantwoorden, hebben we MATRIX-11K samengesteld, een videodataset met interactiebewuste bijschriften en multi-instantie maskersporen. Met behulp van deze dataset voeren we een systematische analyse uit die twee perspectieven van video DiTs formaliseert: semantische verankering, via video-naar-tekst aandacht, die evalueert of zelfstandige naamwoorden en werkwoorden instanties en hun relaties vastleggen; en semantische propagatie, via video-naar-video aandacht, die beoordeelt of instantie-bindingen over frames heen standhouden. We ontdekken dat beide effecten zich concentreren in een kleine subset van interactie-dominante lagen. Gemotiveerd door dit inzicht introduceren we MATRIX, een eenvoudige en effectieve regularisatie die de aandacht in specifieke lagen van video DiTs afstemt op multi-instantie maskersporen uit de MATRIX-11K dataset, waardoor zowel verankering als propagatie worden verbeterd. We stellen verder InterGenEval voor, een evaluatieprotocol voor interactiebewuste videogeneratie. In experimenten verbetert MATRIX zowel de interactietrouw als de semantische uitlijning, terwijl drift en hallucinatie worden verminderd. Uitgebreide ablatie-studies valideren onze ontwerpkeuzes. Codes en gewichten zullen worden vrijgegeven.
English
Video DiTs have advanced video generation, yet they still struggle to model
multi-instance or subject-object interactions. This raises a key question: How
do these models internally represent interactions? To answer this, we curate
MATRIX-11K, a video dataset with interaction-aware captions and multi-instance
mask tracks. Using this dataset, we conduct a systematic analysis that
formalizes two perspectives of video DiTs: semantic grounding, via
video-to-text attention, which evaluates whether noun and verb tokens capture
instances and their relations; and semantic propagation, via video-to-video
attention, which assesses whether instance bindings persist across frames. We
find both effects concentrate in a small subset of interaction-dominant layers.
Motivated by this, we introduce MATRIX, a simple and effective regularization
that aligns attention in specific layers of video DiTs with multi-instance mask
tracks from the MATRIX-11K dataset, enhancing both grounding and propagation.
We further propose InterGenEval, an evaluation protocol for interaction-aware
video generation. In experiments, MATRIX improves both interaction fidelity and
semantic alignment while reducing drift and hallucination. Extensive ablations
validate our design choices. Codes and weights will be released.