OmniJigsaw: Aprimorando o Raciocínio Omnimodal por meio do Reordenamento Orquestrado por Modalidade
OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering
April 9, 2026
Autores: Yiduo Jia, Muzhi Zhu, Hao Zhong, Mingyu Liu, Yuling Xi, Hao Chen, Bin Qin, Yongjie Yang, Zhenbo Luo, Chunhua Shen
cs.AI
Resumo
Para estender o paradigma de pós-treinamento por reforço a modelos omni-modais, com o objetivo de fortalecer simultaneamente a compreensão áudio-visual e o raciocínio colaborativo, propomos o OmniJigsaw, uma estrutura genérica de auto-supervisão baseada numa tarefa proxy de reordenação temporal. Centrado na reconstrução cronológica de *clips* áudio-visuais embaralhados, este paradigma orquestra estrategicamente sinais visuais e auditivos para compelir a integração multimodal através de três estratégias distintas: Integração Conjunta de Modalidades, Seleção de Modalidade a Nível de Amostra e Mascaramento de Modalidade a Nível de *Clip*. Reconhecendo que a eficácia de tais tarefas proxy está fundamentalmente ligada à qualidade do *puzzle*, concebemos um *pipeline* de filtragem de dados em dois estágios (do grosso para o fino), que facilita a adaptação eficiente do OmniJigsaw a dados omni-modais maciços e não anotados. A nossa análise revela um "fenómeno de atalho bimodal" na integração conjunta de modalidades e demonstra que o mascaramento de modalidade a nível de *clip* (mais fino) mitiga este problema, superando a seleção de modalidade a nível de amostra. Avaliações extensivas em 15 *benchmarks* mostram ganhos substanciais em raciocínio de vídeo, áudio e colaborativo, validando o OmniJigsaw como um paradigma escalável para aprendizagem omni-modal auto-supervisionada.
English
To extend the reinforcement learning post-training paradigm to omni-modal models for concurrently bolstering video-audio understanding and collaborative reasoning, we propose OmniJigsaw, a generic self-supervised framework built upon a temporal reordering proxy task. Centered on the chronological reconstruction of shuffled audio-visual clips, this paradigm strategically orchestrates visual and auditory signals to compel cross-modal integration through three distinct strategies: Joint Modality Integration, Sample-level Modality Selection, and Clip-level Modality Masking. Recognizing that the efficacy of such proxy tasks is fundamentally tied to puzzle quality, we design a two-stage coarse-to-fine data filtering pipeline, which facilitates the efficient adaptation of OmniJigsaw to massive unannotated omni-modal data. Our analysis reveals a ``bi-modal shortcut phenomenon'' in joint modality integration and demonstrates that fine-grained clip-level modality masking mitigates this issue while outperforming sample-level modality selection. Extensive evaluations on 15 benchmarks show substantial gains in video, audio, and collaborative reasoning, validating OmniJigsaw as a scalable paradigm for self-supervised omni-modal learning.