MATRIX: Выравнивание масок и треков для генерации видео с учетом взаимодействий
MATRIX: Mask Track Alignment for Interaction-aware Video Generation
October 8, 2025
Авторы: Siyoon Jin, Seongchan Kim, Dahyun Chung, Jaeho Lee, Hyunwook Choi, Jisu Nam, Jiyoung Kim, Seungryong Kim
cs.AI
Аннотация
Видео DiTs продвинули генерацию видео, однако они всё ещё испытывают трудности с моделированием взаимодействий между несколькими объектами или субъектами. Это поднимает ключевой вопрос: как эти модели внутренне представляют взаимодействия? Чтобы ответить на него, мы создали MATRIX-11K — видеодатасет с аннотациями, учитывающими взаимодействия, и треками масок для нескольких объектов. Используя этот датасет, мы провели систематический анализ, который формализует два аспекта видео DiTs: семантическую привязку через внимание видео-к-тексту, которая оценивает, захватывают ли токены существительных и глаголов объекты и их отношения; и семантическое распространение через внимание видео-к-видео, которое проверяет, сохраняются ли связи между объектами на протяжении кадров. Мы обнаружили, что оба эффекта сосредоточены в небольшом подмножестве слоёв, доминирующих в обработке взаимодействий. Вдохновлённые этим, мы представляем MATRIX — простую и эффективную регуляризацию, которая выравнивает внимание в определённых слоях видео DiTs с треками масок для нескольких объектов из датасета MATRIX-11K, улучшая как привязку, так и распространение. Мы также предлагаем InterGenEval — протокол оценки для генерации видео с учётом взаимодействий. В экспериментах MATRIX улучшает как точность взаимодействий, так и семантическое соответствие, одновременно уменьшая дрейф и галлюцинации. Обширные абляции подтверждают наши проектные решения. Коды и веса будут опубликованы.
English
Video DiTs have advanced video generation, yet they still struggle to model
multi-instance or subject-object interactions. This raises a key question: How
do these models internally represent interactions? To answer this, we curate
MATRIX-11K, a video dataset with interaction-aware captions and multi-instance
mask tracks. Using this dataset, we conduct a systematic analysis that
formalizes two perspectives of video DiTs: semantic grounding, via
video-to-text attention, which evaluates whether noun and verb tokens capture
instances and their relations; and semantic propagation, via video-to-video
attention, which assesses whether instance bindings persist across frames. We
find both effects concentrate in a small subset of interaction-dominant layers.
Motivated by this, we introduce MATRIX, a simple and effective regularization
that aligns attention in specific layers of video DiTs with multi-instance mask
tracks from the MATRIX-11K dataset, enhancing both grounding and propagation.
We further propose InterGenEval, an evaluation protocol for interaction-aware
video generation. In experiments, MATRIX improves both interaction fidelity and
semantic alignment while reducing drift and hallucination. Extensive ablations
validate our design choices. Codes and weights will be released.