Potenciando modelos de lenguaje omni-modales: entrenamiento posterior por etapas con evaluación visualmente desesgada

Resumen

Los modelos de lenguaje omni-modales están diseñados para comprender conjuntamente entradas de audio, visuales y lenguaje, pero las ganancias en los puntos de referencia pueden inflarse cuando la evidencia visual por sí sola es suficiente para responder una consulta. Estudiamos si los puntos de referencia omni-modales actuales separan los atajos visuales de la integración genuina de evidencia audiovisual-lingüística, y cómo se comporta el post-entrenamiento bajo un entorno de evaluación con sesgo visual reducido. Auditamos nueve puntos de referencia omni-modales mediante pruebas exclusivamente visuales, eliminamos las consultas resolubles visualmente y conservamos subconjuntos completos cuando el filtrado no está definido o haría que las comparaciones fueran inestables. Esto produce OmniClean, una vista de evaluación depurada con 8,551 consultas retenidas de 16,968 consultas auditadas. En OmniClean, evaluamos OmniBoost, un procedimiento de post-entrenamiento en tres etapas basado en Qwen2.5-Omni-3B: SFT bi-modal mixto, RLVR de modalidad mixta y SFT sobre datos autodestilados. El SFT bi-modal equilibrado produce ganancias limitadas y desiguales, RLVR proporciona la primera mejora amplia y la autodestilación redefine el perfil del punto de referencia. Después del SFT sobre datos autodestilados, el modelo de 3B alcanza un rendimiento comparable y, en conjunto, ligeramente superior al de Qwen3-Omni-30B-A3B-Instruct sin usar un profesor omni-modal más fuerte. Estos resultados muestran que el progreso omni-modal es más fácil de interpretar cuando la evaluación controla la fuga visual, y que los modelos omni-modales pequeños pueden beneficiarse del post-entrenamiento gradual con supervisión de consultas omni autodestiladas. Página del proyecto: https://cheliu-computation.github.io/omni/

English

Omni-modal language models are intended to jointly understand audio, visual inputs, and language, but benchmark gains can be inflated when visual evidence alone is enough to answer a query. We study whether current omni-modal benchmarks separate visual shortcuts from genuine audio-visual-language evidence integration, and how post-training behaves under a visually debiased evaluation setting. We audit nine omni-modal benchmarks with visual-only probing, remove visually solvable queries, and retain full subsets when filtering is undefined or would make comparisons unstable. This yields OmniClean, a cleaned evaluation view with 8,551 retained queries from 16,968 audited queries. On OmniClean, we evaluate OmniBoost, a three-stage post-training recipe based on Qwen2.5-Omni-3B: mixed bi-modal SFT, mixed-modality RLVR, and SFT on self-distilled data. Balanced bi-modal SFT gives limited and uneven gains, RLVR provides the first broad improvement, and self-distillation reshapes the benchmark profile. After SFT on self-distilled data, the 3B model reaches performance comparable to, and in aggregate slightly above, Qwen3-Omni-30B-A3B-Instruct without using a stronger omni-modal teacher. These results show that omni-modal progress is easier to interpret when evaluation controls visual leakage, and that small omni-modal models can benefit from staged post-training with self-distilled omni-query supervision. Project page: https://cheliu-computation.github.io/omni/