OmniJigsaw: Улучшение омни-модального рассуждения посредством переупорядочивания, оркестрируемого модальностями
OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering
April 9, 2026
Авторы: Yiduo Jia, Muzhi Zhu, Hao Zhong, Mingyu Liu, Yuling Xi, Hao Chen, Bin Qin, Yongjie Yang, Zhenbo Luo, Chunhua Shen
cs.AI
Аннотация
Для расширения парадигмы пост-обучения с подкреплением на омни-модальные модели с целью одновременного усиления понимания видео-аудио и совместного рассуждения мы предлагаем OmniJigsaw — универсальную самообучаемую платформу, основанную на задаче временного переупорядочивания. Сфокусированная на хронологическом восстановлении перетасованных аудиовизуальных клипов, данная парадигма стратегически организует визуальные и звуковые сигналы, чтобы принудительно обеспечить кросс-модальную интеграцию через три различные стратегии: совместную интеграцию модальностей, выбор модальностей на уровне сэмплов и маскирование модальностей на уровне клипов. Учитывая, что эффективность таких задач напрямую зависит от качества «головоломки», мы разработали двухэтапный конвейер фильтрации данных от грубой к точной, который облегчает адаптацию OmniJigsaw к массовым неразмеченным омни-модальным данным. Наш анализ выявляет «би-модальный феномен сокращения пути» при совместной интеграции модальностей и демонстрирует, что точное маскирование модальностей на уровне клипов смягчает эту проблему, превосходя выбор модальностей на уровне сэмплов. Масштабные оценки на 15 тестовых наборах показывают существенный прогресс в задачах видео-, аудиоанализа и совместного рассуждения, подтверждая, что OmniJigsaw является масштабируемой парадигмой для самообучаемого омни-модального обучения.
English
To extend the reinforcement learning post-training paradigm to omni-modal models for concurrently bolstering video-audio understanding and collaborative reasoning, we propose OmniJigsaw, a generic self-supervised framework built upon a temporal reordering proxy task. Centered on the chronological reconstruction of shuffled audio-visual clips, this paradigm strategically orchestrates visual and auditory signals to compel cross-modal integration through three distinct strategies: Joint Modality Integration, Sample-level Modality Selection, and Clip-level Modality Masking. Recognizing that the efficacy of such proxy tasks is fundamentally tied to puzzle quality, we design a two-stage coarse-to-fine data filtering pipeline, which facilitates the efficient adaptation of OmniJigsaw to massive unannotated omni-modal data. Our analysis reveals a ``bi-modal shortcut phenomenon'' in joint modality integration and demonstrates that fine-grained clip-level modality masking mitigates this issue while outperforming sample-level modality selection. Extensive evaluations on 15 benchmarks show substantial gains in video, audio, and collaborative reasoning, validating OmniJigsaw as a scalable paradigm for self-supervised omni-modal learning.