MATRIX: Mask Track Alignment voor Interactiebewuste Videogeneratie

Samenvatting

Video DiTs hebben vooruitgang geboekt in videogeneratie, maar ze hebben nog steeds moeite met het modelleren van multi-instanties of subject-object interacties. Dit roept een belangrijke vraag op: Hoe representeren deze modellen interacties intern? Om dit te beantwoorden, hebben we MATRIX-11K samengesteld, een videodataset met interactiebewuste bijschriften en multi-instantie maskersporen. Met behulp van deze dataset voeren we een systematische analyse uit die twee perspectieven van video DiTs formaliseert: semantische verankering, via video-naar-tekst aandacht, die evalueert of zelfstandige naamwoorden en werkwoorden instanties en hun relaties vastleggen; en semantische propagatie, via video-naar-video aandacht, die beoordeelt of instantie-bindingen over frames heen standhouden. We ontdekken dat beide effecten zich concentreren in een kleine subset van interactie-dominante lagen. Gemotiveerd door dit inzicht introduceren we MATRIX, een eenvoudige en effectieve regularisatie die de aandacht in specifieke lagen van video DiTs afstemt op multi-instantie maskersporen uit de MATRIX-11K dataset, waardoor zowel verankering als propagatie worden verbeterd. We stellen verder InterGenEval voor, een evaluatieprotocol voor interactiebewuste videogeneratie. In experimenten verbetert MATRIX zowel de interactietrouw als de semantische uitlijning, terwijl drift en hallucinatie worden verminderd. Uitgebreide ablatie-studies valideren onze ontwerpkeuzes. Codes en gewichten zullen worden vrijgegeven.

English

Video DiTs have advanced video generation, yet they still struggle to model multi-instance or subject-object interactions. This raises a key question: How do these models internally represent interactions? To answer this, we curate MATRIX-11K, a video dataset with interaction-aware captions and multi-instance mask tracks. Using this dataset, we conduct a systematic analysis that formalizes two perspectives of video DiTs: semantic grounding, via video-to-text attention, which evaluates whether noun and verb tokens capture instances and their relations; and semantic propagation, via video-to-video attention, which assesses whether instance bindings persist across frames. We find both effects concentrate in a small subset of interaction-dominant layers. Motivated by this, we introduce MATRIX, a simple and effective regularization that aligns attention in specific layers of video DiTs with multi-instance mask tracks from the MATRIX-11K dataset, enhancing both grounding and propagation. We further propose InterGenEval, an evaluation protocol for interaction-aware video generation. In experiments, MATRIX improves both interaction fidelity and semantic alignment while reducing drift and hallucination. Extensive ablations validate our design choices. Codes and weights will be released.

MATRIX: Mask Track Alignment voor Interactiebewuste Videogeneratie

MATRIX: Mask Track Alignment for Interaction-aware Video Generation

Samenvatting

Support