OmniJigsaw: 모달리티 오케스트레이션 재정렬을 통한 올니모달 추론 향상
OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering
April 9, 2026
저자: Yiduo Jia, Muzhi Zhu, Hao Zhong, Mingyu Liu, Yuling Xi, Hao Chen, Bin Qin, Yongjie Yang, Zhenbo Luo, Chunhua Shen
cs.AI
초록
비디오-오디오 이해와 협력적 추론을 동시에 강화하기 위해 오므니모달 모델에 강화 학습 사후 훈련 패러다임을 확장하기 위해, 우리는 시간적 재정렬 프록시 작업을 기반으로 한 일반적 자기 지도 프레임워크인 OmniJigsaw를 제안한다. 뒤섞인 오디오-비주얼 클립의 시간 순서 재구성에 중점을 둔 이 패러다임은 시각 및 청각 신호를 전략적으로 조정하여 세 가지 독특한 전략—공동 모달리티 통합, 샘플 수준 모달리티 선택, 클립 수준 모달리티 마스킹—을 통해 교차 모달리티 통합을 유도한다. 이러한 프록시 작업의 효율성이 퍼즐 품질에 근본적으로 연관됨을 인식하여, 우리는 2단계(coarse-to-fine) 데이터 필터링 파이프라인을 설계하여 OmniJigsaw가 대규모 비주석 오므니모달 데이터에 효율적으로 적응하도록 지원한다. 우리의 분석은 공동 모달리티 통합에서 "이중 모달리티 지름길 현상"을 밝혀내며, 세분화된 클립 수준 모달리티 마스킹이 이 문제를 완화하는 동시에 샘플 수준 모달리티 선택을 능가함을 입증한다. 15개 벤치마크에 대한 포괄적 평가는 비디오, 오디오 및 협력적 추론에서 상당한 성능 향상을 보여주며, OmniJigsaw가 확장 가능한 자기 지도 오므니모달 학습 패러다임임을 검증한다.
English
To extend the reinforcement learning post-training paradigm to omni-modal models for concurrently bolstering video-audio understanding and collaborative reasoning, we propose OmniJigsaw, a generic self-supervised framework built upon a temporal reordering proxy task. Centered on the chronological reconstruction of shuffled audio-visual clips, this paradigm strategically orchestrates visual and auditory signals to compel cross-modal integration through three distinct strategies: Joint Modality Integration, Sample-level Modality Selection, and Clip-level Modality Masking. Recognizing that the efficacy of such proxy tasks is fundamentally tied to puzzle quality, we design a two-stage coarse-to-fine data filtering pipeline, which facilitates the efficient adaptation of OmniJigsaw to massive unannotated omni-modal data. Our analysis reveals a ``bi-modal shortcut phenomenon'' in joint modality integration and demonstrates that fine-grained clip-level modality masking mitigates this issue while outperforming sample-level modality selection. Extensive evaluations on 15 benchmarks show substantial gains in video, audio, and collaborative reasoning, validating OmniJigsaw as a scalable paradigm for self-supervised omni-modal learning.