OmniJigsaw : Amélioration du raisonnement omni-modal par réorganisation orchestrée par modalité
OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering
April 9, 2026
Auteurs: Yiduo Jia, Muzhi Zhu, Hao Zhong, Mingyu Liu, Yuling Xi, Hao Chen, Bin Qin, Yongjie Yang, Zhenbo Luo, Chunhua Shen
cs.AI
Résumé
Afin d'étendre le paradigme de post-entraînement par apprentissage par renforcement aux modèles omni-modaux pour renforcer simultanément la compréhension vidéo-audio et le raisonnement collaboratif, nous proposons OmniJigsaw, un cadre auto-supervisé générique construit sur une tâche proxy de réorganisation temporelle. Centré sur la reconstruction chronologique de clips audio-visuels mélangés, ce paradigme orchestre stratégiquement les signaux visuels et auditifs pour contraindre l'intégration cross-modale via trois stratégies distinctes : l'Intégration Modale Conjointe, la Sélection Modale au Niveau de l'Échantillon et le Masquage Modale au Niveau du Clip. Conscients que l'efficacité de telles tâches proxy est fondamentalement liée à la qualité des puzzles, nous concevons un pipeline de filtrage de données en deux étapes, du grossier au fin, qui facilite l'adaptation efficace d'OmniJigsaw aux données omni-modales massives non annotées. Notre analyse révèle un « phénomène de raccourci bi-modal » dans l'intégration modale conjointe et démontre que le masquage modale fin au niveau du clip atténue ce problème tout en surpassant la sélection modale au niveau de l'échantillon. Des évaluations approfondies sur 15 benchmarks montrent des gains substantiels en matière de raisonnement vidéo, audio et collaboratif, validant OmniJigsaw comme un paradigme évolutif pour l'apprentissage auto-supervisé omni-modal.
English
To extend the reinforcement learning post-training paradigm to omni-modal models for concurrently bolstering video-audio understanding and collaborative reasoning, we propose OmniJigsaw, a generic self-supervised framework built upon a temporal reordering proxy task. Centered on the chronological reconstruction of shuffled audio-visual clips, this paradigm strategically orchestrates visual and auditory signals to compel cross-modal integration through three distinct strategies: Joint Modality Integration, Sample-level Modality Selection, and Clip-level Modality Masking. Recognizing that the efficacy of such proxy tasks is fundamentally tied to puzzle quality, we design a two-stage coarse-to-fine data filtering pipeline, which facilitates the efficient adaptation of OmniJigsaw to massive unannotated omni-modal data. Our analysis reveals a ``bi-modal shortcut phenomenon'' in joint modality integration and demonstrates that fine-grained clip-level modality masking mitigates this issue while outperforming sample-level modality selection. Extensive evaluations on 15 benchmarks show substantial gains in video, audio, and collaborative reasoning, validating OmniJigsaw as a scalable paradigm for self-supervised omni-modal learning.