OmniJigsaw: Verbetering van Omni-Modale Redenering via Modaliteit-Georchestreerde Herordening
OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering
April 9, 2026
Auteurs: Yiduo Jia, Muzhi Zhu, Hao Zhong, Mingyu Liu, Yuling Xi, Hao Chen, Bin Qin, Yongjie Yang, Zhenbo Luo, Chunhua Shen
cs.AI
Samenvatting
Om de versterkt leren post-training paradigma uit te breiden naar omni-modale modellen voor gelijktijdige versterking van video-audio begrip en collaboratief redeneren, stellen we OmniJigsaw voor, een generiek zelfgesuperviseerd raamwerk gebaseerd op een proxytaak van temporele herordening. Gecentreerd rond de chronologische reconstructie van geschudde audiovisuele clips, orkestreert dit paradigma visuele en auditieve signalen strategisch om cross-modale integratie af te dwingen via drie afzonderlijke strategieën: Gezamenlijke Modaliteitsintegratie, Modaliteitsselectie op Monsterniveau en Modaliteitsmaskering op Clipniveau. Omdat we erkennen dat de effectiviteit van dergelijke proxytaken fundamenteel verbonden is met de kwaliteit van de puzzel, ontwerpen we een tweefasen datafilteringspijplijn van grof naar fijn, die de efficiënte aanpassing van OmniJigsaw aan massale ongelabelde omni-modale data vergemakkelijkt. Onze analyse onthult een "bi-modale kortsluitingfenomeen" in gezamenlijke modaliteitsintegratie en toont aan dat fijnmazige modaliteitsmaskering op clipniveau dit probleem vermindert en tegelijkertijd modaliteitsselectie op monsterniveau overtreft. Uitgebreide evaluaties op 15 benchmarks tonen substantiële vooruitgang in video, audio en collaboratief redeneren, wat OmniJigsaw valideert als een schaalbaar paradigma voor zelfgesuperviseerd omni-modale leren.
English
To extend the reinforcement learning post-training paradigm to omni-modal models for concurrently bolstering video-audio understanding and collaborative reasoning, we propose OmniJigsaw, a generic self-supervised framework built upon a temporal reordering proxy task. Centered on the chronological reconstruction of shuffled audio-visual clips, this paradigm strategically orchestrates visual and auditory signals to compel cross-modal integration through three distinct strategies: Joint Modality Integration, Sample-level Modality Selection, and Clip-level Modality Masking. Recognizing that the efficacy of such proxy tasks is fundamentally tied to puzzle quality, we design a two-stage coarse-to-fine data filtering pipeline, which facilitates the efficient adaptation of OmniJigsaw to massive unannotated omni-modal data. Our analysis reveals a ``bi-modal shortcut phenomenon'' in joint modality integration and demonstrates that fine-grained clip-level modality masking mitigates this issue while outperforming sample-level modality selection. Extensive evaluations on 15 benchmarks show substantial gains in video, audio, and collaborative reasoning, validating OmniJigsaw as a scalable paradigm for self-supervised omni-modal learning.