Verbeteren van omni-modale taalmodellen: gefaseerde natraining met visueel ontbrende evaluatie

Samenvatting

Omni-modale taalmodellen zijn bedoeld om gezamenlijk audio, visuele inputs en taal te begrijpen, maar benchmarkwinst kan worden opgeblazen wanneer alleen visueel bewijs voldoende is om een query te beantwoorden. We bestuderen of huidige omni-modale benchmarks visuele shortcuts scheiden van echte audiovisueel-taalbewijsintegratie, en hoe post-training zich gedraagt onder een visueel gedebiasede evaluatieomgeving. We auditen negen omni-modale benchmarks met alleen-visuele probing, verwijderen visueel oplosbare queries, en behouden volledige subsets wanneer filteren ongedefinieerd is of vergelijkingen instabiel zou maken. Dit levert OmniClean op, een opgeschoond evaluatiebeeld met 8.551 behouden queries uit 16.968 geaudite queries. Op OmniClean evalueren we OmniBoost, een drietraps post-training recept gebaseerd op Qwen2.5-Omni-3B: gemengde bi-modale SFT, gemengde-modaliteit RLVR, en SFT op zelfgedistilleerde data. Gebalanceerde bi-modale SFT geeft beperkte en ongelijke winst, RLVR biedt de eerste brede verbetering, en zelfdistillatie hervormt het benchmarkprofiel. Na SFT op zelfgedistilleerde data bereikt het 3B-model prestaties die vergelijkbaar zijn met, en in totaal iets boven, Qwen3-Omni-30B-A3B-Instruct zonder gebruik te maken van een sterke omni-modale leraar. Deze resultaten tonen aan dat omni-modale vooruitgang gemakkelijker te interpreteren is wanneer evaluatie visuele lekkage controleert, en dat kleine omni-modale modellen kunnen profiteren van gefaseerde post-training met zelfgedistilleerd omni-query toezicht. Projectpagina: https://cheliu-computation.github.io/omni/

English

Omni-modal language models are intended to jointly understand audio, visual inputs, and language, but benchmark gains can be inflated when visual evidence alone is enough to answer a query. We study whether current omni-modal benchmarks separate visual shortcuts from genuine audio-visual-language evidence integration, and how post-training behaves under a visually debiased evaluation setting. We audit nine omni-modal benchmarks with visual-only probing, remove visually solvable queries, and retain full subsets when filtering is undefined or would make comparisons unstable. This yields OmniClean, a cleaned evaluation view with 8,551 retained queries from 16,968 audited queries. On OmniClean, we evaluate OmniBoost, a three-stage post-training recipe based on Qwen2.5-Omni-3B: mixed bi-modal SFT, mixed-modality RLVR, and SFT on self-distilled data. Balanced bi-modal SFT gives limited and uneven gains, RLVR provides the first broad improvement, and self-distillation reshapes the benchmark profile. After SFT on self-distilled data, the 3B model reaches performance comparable to, and in aggregate slightly above, Qwen3-Omni-30B-A3B-Instruct without using a stronger omni-modal teacher. These results show that omni-modal progress is easier to interpret when evaluation controls visual leakage, and that small omni-modal models can benefit from staged post-training with self-distilled omni-query supervision. Project page: https://cheliu-computation.github.io/omni/