Verbesserung omnimodaler Sprachmodelle: Stufenweises Post-Training mit visuell debiaster Evaluierung

Zusammenfassung

Omni-modale Sprachmodelle sollen Audio-, visuelle Eingaben und Sprache gemeinsam verstehen, doch die Verbesserungen in Benchmarks können überhöht sein, wenn bereits visuelle Beweise allein ausreichen, um eine Abfrage zu beantworten. Wir untersuchen, ob aktuelle omni-modale Benchmarks visuelle Abkürzungen von einer echten audio-visuell-sprachlichen Evidenzintegration trennen und wie sich Post-Training unter einem visuell entstörten Evaluierungssetting verhält. Wir prüfen neun omni-modale Benchmarks mit rein visuellen Sondierungsmethoden, entfernen visuell lösbare Abfragen und behalten vollständige Teilmengen bei, wenn Filterung undefiniert ist oder Vergleiche instabil machen würde. Dies ergibt OmniClean, eine bereinigte Evaluierungssicht mit 8.551 beibehaltenen Abfragen aus 16.968 geprüften Abfragen. Auf OmniClean evaluieren wir OmniBoost, eine dreistufige Post-Training-Methode basierend auf Qwen2.5-Omni-3B: gemischtes bi-modales SFT, gemischtes Modalitäts-RLVR und SFT auf selbst-destillierten Daten. Ausgewogenes bi-modales SFT bringt begrenzte und ungleichmäßige Gewinne, RLVR liefert die erste breite Verbesserung, und Selbstdistillation formt das Benchmark-Profil um. Nach SFT auf selbst-destillierten Daten erreicht das 3B-Modell eine Leistung, die mit Qwen3-Omni-30B-A3B-Instruct vergleichbar und aggregiert leicht überlegen ist, ohne einen stärkeren omni-modalen Lehrer zu verwenden. Diese Ergebnisse zeigen, dass omni-modaler Fortschritt leichter interpretierbar ist, wenn die Evaluierung visuelle Leckagen kontrolliert, und dass kleine omni-modale Modelle von stufenweisem Post-Training mit selbst-destillierter Omni-Abfrage-Supervision profitieren können. Projektseite: https://cheliu-computation.github.io/omni/

English

Omni-modal language models are intended to jointly understand audio, visual inputs, and language, but benchmark gains can be inflated when visual evidence alone is enough to answer a query. We study whether current omni-modal benchmarks separate visual shortcuts from genuine audio-visual-language evidence integration, and how post-training behaves under a visually debiased evaluation setting. We audit nine omni-modal benchmarks with visual-only probing, remove visually solvable queries, and retain full subsets when filtering is undefined or would make comparisons unstable. This yields OmniClean, a cleaned evaluation view with 8,551 retained queries from 16,968 audited queries. On OmniClean, we evaluate OmniBoost, a three-stage post-training recipe based on Qwen2.5-Omni-3B: mixed bi-modal SFT, mixed-modality RLVR, and SFT on self-distilled data. Balanced bi-modal SFT gives limited and uneven gains, RLVR provides the first broad improvement, and self-distillation reshapes the benchmark profile. After SFT on self-distilled data, the 3B model reaches performance comparable to, and in aggregate slightly above, Qwen3-Omni-30B-A3B-Instruct without using a stronger omni-modal teacher. These results show that omni-modal progress is easier to interpret when evaluation controls visual leakage, and that small omni-modal models can benefit from staged post-training with self-distilled omni-query supervision. Project page: https://cheliu-computation.github.io/omni/