ChatPaper.aiChatPaper

MATRIX: Выравнивание масок и треков для генерации видео с учетом взаимодействий

MATRIX: Mask Track Alignment for Interaction-aware Video Generation

October 8, 2025
Авторы: Siyoon Jin, Seongchan Kim, Dahyun Chung, Jaeho Lee, Hyunwook Choi, Jisu Nam, Jiyoung Kim, Seungryong Kim
cs.AI

Аннотация

Видео DiTs продвинули генерацию видео, однако они всё ещё испытывают трудности с моделированием взаимодействий между несколькими объектами или субъектами. Это поднимает ключевой вопрос: как эти модели внутренне представляют взаимодействия? Чтобы ответить на него, мы создали MATRIX-11K — видеодатасет с аннотациями, учитывающими взаимодействия, и треками масок для нескольких объектов. Используя этот датасет, мы провели систематический анализ, который формализует два аспекта видео DiTs: семантическую привязку через внимание видео-к-тексту, которая оценивает, захватывают ли токены существительных и глаголов объекты и их отношения; и семантическое распространение через внимание видео-к-видео, которое проверяет, сохраняются ли связи между объектами на протяжении кадров. Мы обнаружили, что оба эффекта сосредоточены в небольшом подмножестве слоёв, доминирующих в обработке взаимодействий. Вдохновлённые этим, мы представляем MATRIX — простую и эффективную регуляризацию, которая выравнивает внимание в определённых слоях видео DiTs с треками масок для нескольких объектов из датасета MATRIX-11K, улучшая как привязку, так и распространение. Мы также предлагаем InterGenEval — протокол оценки для генерации видео с учётом взаимодействий. В экспериментах MATRIX улучшает как точность взаимодействий, так и семантическое соответствие, одновременно уменьшая дрейф и галлюцинации. Обширные абляции подтверждают наши проектные решения. Коды и веса будут опубликованы.
English
Video DiTs have advanced video generation, yet they still struggle to model multi-instance or subject-object interactions. This raises a key question: How do these models internally represent interactions? To answer this, we curate MATRIX-11K, a video dataset with interaction-aware captions and multi-instance mask tracks. Using this dataset, we conduct a systematic analysis that formalizes two perspectives of video DiTs: semantic grounding, via video-to-text attention, which evaluates whether noun and verb tokens capture instances and their relations; and semantic propagation, via video-to-video attention, which assesses whether instance bindings persist across frames. We find both effects concentrate in a small subset of interaction-dominant layers. Motivated by this, we introduce MATRIX, a simple and effective regularization that aligns attention in specific layers of video DiTs with multi-instance mask tracks from the MATRIX-11K dataset, enhancing both grounding and propagation. We further propose InterGenEval, an evaluation protocol for interaction-aware video generation. In experiments, MATRIX improves both interaction fidelity and semantic alignment while reducing drift and hallucination. Extensive ablations validate our design choices. Codes and weights will be released.