ChatPaper.aiChatPaper

OmniJigsaw: Verbesserung des omni-modalen Denkens durch modalitätsorchestrierte Neuanordnung

OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering

April 9, 2026
Autoren: Yiduo Jia, Muzhi Zhu, Hao Zhong, Mingyu Liu, Yuling Xi, Hao Chen, Bin Qin, Yongjie Yang, Zhenbo Luo, Chunhua Shen
cs.AI

Zusammenfassung

Um das Paradigma des Reinforcement-Learning-Nachtrainings auf omnimodale Modelle zu erweitern, um gleichzeitig das Video-Audio-Verständnis und das kollaborative Reasoning zu stärken, schlagen wir OmniJigsaw vor – einen generischen selbstüberwachten Rahmen, der auf einer Proxy-Aufgabe zur zeitlichen Neuanordnung basiert. Dieses Paradigma konzentriert sich auf die chronologische Rekonstruktion von gemischten audiovisuellen Clips und orchestriert visuelle und auditive Signale strategisch, um eine cross-modale Integration durch drei verschiedene Strategien zu erzwingen: Gemeinsame Modalitätsintegration, Modalitätsauswahl auf Probenebene und Modalitätsmaskierung auf Clip-Ebene. Da die Wirksamkeit solcher Proxy-Aufgaben grundlegend mit der Puzzle-Qualität verbunden ist, entwerfen wir eine zweistufige Datenfilterpipeline vom Groben zum Feinen, die die effiziente Anpassung von OmniJigsaw an massive unannotierte omnimodale Daten ermöglicht. Unsere Analyse zeigt ein „bimodales Abkürzungsphänomen“ bei der gemeinsamen Modalitätsintegration und demonstriert, dass feingranulare Modalitätsmaskierung auf Clip-Ebene dieses Problem mildert und dabei die Modalitätsauswahl auf Probenebene übertrifft. Umfangreiche Auswertungen auf 15 Benchmarks zeigen substantielle Verbesserungen bei Video, Audio und kollaborativem Reasoning und validieren OmniJigsaw als skalierbares Paradigma für selbstüberwachtes omnimodales Lernen.
English
To extend the reinforcement learning post-training paradigm to omni-modal models for concurrently bolstering video-audio understanding and collaborative reasoning, we propose OmniJigsaw, a generic self-supervised framework built upon a temporal reordering proxy task. Centered on the chronological reconstruction of shuffled audio-visual clips, this paradigm strategically orchestrates visual and auditory signals to compel cross-modal integration through three distinct strategies: Joint Modality Integration, Sample-level Modality Selection, and Clip-level Modality Masking. Recognizing that the efficacy of such proxy tasks is fundamentally tied to puzzle quality, we design a two-stage coarse-to-fine data filtering pipeline, which facilitates the efficient adaptation of OmniJigsaw to massive unannotated omni-modal data. Our analysis reveals a ``bi-modal shortcut phenomenon'' in joint modality integration and demonstrates that fine-grained clip-level modality masking mitigates this issue while outperforming sample-level modality selection. Extensive evaluations on 15 benchmarks show substantial gains in video, audio, and collaborative reasoning, validating OmniJigsaw as a scalable paradigm for self-supervised omni-modal learning.
PDF161April 11, 2026