OmniJigsaw: Potenziamento del Ragionamento Omni-Modale tramite Riordinamento Orchestrato dalle Modalità
OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering
April 9, 2026
Autori: Yiduo Jia, Muzhi Zhu, Hao Zhong, Mingyu Liu, Yuling Xi, Hao Chen, Bin Qin, Yongjie Yang, Zhenbo Luo, Chunhua Shen
cs.AI
Abstract
Per estendere il paradigma del post-addestramento per rinforzo ai modelli onni-modali, al fine di potenziare simultaneamente la comprensione video-audio e il ragionamento collaborativo, proponiamo OmniJigsaw, un framework auto-supervisionato generico basato su un compito proxy di riordinamento temporale. Centrato sulla ricostruzione cronologica di clip audiovisive rimescolate, questo paradigma orchestra strategicamente i segnali visivi e uditivi per costringere l'integrazione cross-modale attraverso tre strategie distinte: Integrazione Congiunta delle Modalità, Selezione della Modalità a Livello di Campione e Mascheramento della Modalità a Livello di Clip. Riconoscendo che l'efficacia di tali compiti proxy è fondamentalmente legata alla qualità del "puzzle", progettiamo una pipeline di filtraggio dei dati a due stadi (da grossolano a fine), che facilita l'adattamento efficiente di OmniJigsaw a massicci dati onni-modali non annotati. La nostra analisi rivela un "fenomeno di scorciatoia bi-modale" nell'integrazione congiunta delle modalità e dimostra che il mascheramento fine della modalità a livello di clip mitiga questo problema, superando al contempo la selezione della modalità a livello di campione. Valutazioni estensive su 15 benchmark mostrano miglioramenti sostanziali nel ragionamento video, audio e collaborativo, convalidando OmniJigsaw come paradigma scalabile per l'apprendimento auto-supervisionato onni-modale.
English
To extend the reinforcement learning post-training paradigm to omni-modal models for concurrently bolstering video-audio understanding and collaborative reasoning, we propose OmniJigsaw, a generic self-supervised framework built upon a temporal reordering proxy task. Centered on the chronological reconstruction of shuffled audio-visual clips, this paradigm strategically orchestrates visual and auditory signals to compel cross-modal integration through three distinct strategies: Joint Modality Integration, Sample-level Modality Selection, and Clip-level Modality Masking. Recognizing that the efficacy of such proxy tasks is fundamentally tied to puzzle quality, we design a two-stage coarse-to-fine data filtering pipeline, which facilitates the efficient adaptation of OmniJigsaw to massive unannotated omni-modal data. Our analysis reveals a ``bi-modal shortcut phenomenon'' in joint modality integration and demonstrates that fine-grained clip-level modality masking mitigates this issue while outperforming sample-level modality selection. Extensive evaluations on 15 benchmarks show substantial gains in video, audio, and collaborative reasoning, validating OmniJigsaw as a scalable paradigm for self-supervised omni-modal learning.