ChatPaper.aiChatPaper

OmniJigsaw: Mejora del Razonamiento Omnimodal mediante Reordenamiento Orquestado por Modalidades

OmniJigsaw: Enhancing Omni-Modal Reasoning via Modality-Orchestrated Reordering

April 9, 2026
Autores: Yiduo Jia, Muzhi Zhu, Hao Zhong, Mingyu Liu, Yuling Xi, Hao Chen, Bin Qin, Yongjie Yang, Zhenbo Luo, Chunhua Shen
cs.AI

Resumen

Para extender el paradigma de post-entrenamiento por aprendizaje por refuerzo a modelos omni-modales que fortalezcan concurrentemente la comprensión audiovisual y el razonamiento colaborativo, proponemos OmniJigsaw, un marco genérico de auto-supervisión basado en una tarea proxy de reordenamiento temporal. Centrado en la reconstrucción cronológica de clips audiovisuales mezclados, este paradigma orquesta estratégicamente señales visuales y auditivas para impulsar la integración multimodal mediante tres estrategias distintas: Integración Conjunta de Modalidades, Selección de Modalidades a Nivel de Muestra y Enmascaramiento de Modalidades a Nivel de Clip. Reconociendo que la eficacia de tales tareas proxy está fundamentalmente ligada a la calidad del rompecabezas, diseñamos un pipeline de filtrado de datos en dos etapas (de grueso a fino) que facilita la adaptación eficiente de OmniJigsaw a datos omni-modales masivos no anotados. Nuestro análisis revela un "fenómeno de atajo bimodal" en la integración conjunta de modalidades y demuestra que el enmascaramiento fino a nivel de clip mitiga este problema, superando además a la selección de modalidades a nivel de muestra. Evaluaciones exhaustivas en 15 benchmarks muestran mejoras sustanciales en video, audio y razonamiento colaborativo, validando a OmniJigsaw como un paradigma escalable para el aprendizaje omni-modal auto-supervisado.
English
To extend the reinforcement learning post-training paradigm to omni-modal models for concurrently bolstering video-audio understanding and collaborative reasoning, we propose OmniJigsaw, a generic self-supervised framework built upon a temporal reordering proxy task. Centered on the chronological reconstruction of shuffled audio-visual clips, this paradigm strategically orchestrates visual and auditory signals to compel cross-modal integration through three distinct strategies: Joint Modality Integration, Sample-level Modality Selection, and Clip-level Modality Masking. Recognizing that the efficacy of such proxy tasks is fundamentally tied to puzzle quality, we design a two-stage coarse-to-fine data filtering pipeline, which facilitates the efficient adaptation of OmniJigsaw to massive unannotated omni-modal data. Our analysis reveals a ``bi-modal shortcut phenomenon'' in joint modality integration and demonstrates that fine-grained clip-level modality masking mitigates this issue while outperforming sample-level modality selection. Extensive evaluations on 15 benchmarks show substantial gains in video, audio, and collaborative reasoning, validating OmniJigsaw as a scalable paradigm for self-supervised omni-modal learning.
PDF161April 11, 2026