Aprimorando Modelos de Linguagem Omni-Modais: Pós-Treinamento em Etapas com Avaliação Visualmente Debiaseada

Resumo

Modelos de linguagem onimodais são projetados para compreender conjuntamente entradas de áudio, visuais e linguagem, mas os ganhos em benchmarks podem ser inflacionados quando apenas evidências visuais são suficientes para responder a uma consulta. Investigamos se os atuais benchmarks onimodais separam atalhos visuais da genuína integração de evidências audiovisuais e linguísticas, e como o pós-treinamento se comporta em um cenário de avaliação visualmente desenviesada. Auditamos nove benchmarks onimodais com sondagem apenas visual, removemos consultas solúveis visualmente e mantemos subconjuntos completos quando a filtragem é indefinida ou tornaria as comparações instáveis. Isso resulta no OmniClean, uma visão de avaliação limpa com 8.551 consultas retidas de 16.968 consultas auditadas. No OmniClean, avaliamos o OmniBoost, uma receita de pós-treinamento em três estágios baseada no Qwen2.5-Omni-3B: SFT bimodal misto, RLVR de modalidades mistas e SFT em dados autodestilados. O SFT bimodal balanceado proporciona ganhos limitados e desiguais, o RLVR oferece a primeira melhoria ampla, e a autodestilação remodela o perfil do benchmark. Após o SFT em dados autodestilados, o modelo de 3B atinge desempenho comparável e, no agregado, ligeiramente superior ao Qwen3-Omni-30B-A3B-Instruct sem usar um professor onimodal mais forte. Esses resultados mostram que o progresso onimodal é mais fácil de interpretar quando a avaliação controla o vazamento visual, e que modelos onimodais pequenos podem se beneficiar de pós-treinamento em estágios com supervisão oniconsulta autodestilada. Página do projeto: https://cheliu-computation.github.io/omni/

English

Omni-modal language models are intended to jointly understand audio, visual inputs, and language, but benchmark gains can be inflated when visual evidence alone is enough to answer a query. We study whether current omni-modal benchmarks separate visual shortcuts from genuine audio-visual-language evidence integration, and how post-training behaves under a visually debiased evaluation setting. We audit nine omni-modal benchmarks with visual-only probing, remove visually solvable queries, and retain full subsets when filtering is undefined or would make comparisons unstable. This yields OmniClean, a cleaned evaluation view with 8,551 retained queries from 16,968 audited queries. On OmniClean, we evaluate OmniBoost, a three-stage post-training recipe based on Qwen2.5-Omni-3B: mixed bi-modal SFT, mixed-modality RLVR, and SFT on self-distilled data. Balanced bi-modal SFT gives limited and uneven gains, RLVR provides the first broad improvement, and self-distillation reshapes the benchmark profile. After SFT on self-distilled data, the 3B model reaches performance comparable to, and in aggregate slightly above, Qwen3-Omni-30B-A3B-Instruct without using a stronger omni-modal teacher. These results show that omni-modal progress is easier to interpret when evaluation controls visual leakage, and that small omni-modal models can benefit from staged post-training with self-distilled omni-query supervision. Project page: https://cheliu-computation.github.io/omni/