Amélioration des modèles de langage omni-modaux : post-entraînement par étapes avec évaluation visuellement débaisée

Résumé

Les modèles de langage omni-modaux sont conçus pour comprendre conjointement les entrées audio, visuelles et le langage, mais les gains de référence peuvent être gonflés lorsque les preuves visuelles seules suffisent à répondre à une requête. Nous étudions si les références omni-modales actuelles séparent les raccourcis visuels de l'intégration authentique des preuves audio-visuelles-linguistiques, et comment le post-entraînement se comporte dans un cadre d'évaluation visuellement débiaisé. Nous auditons neuf références omni-modales avec un sondage purement visuel, supprimons les requêtes visuellement résolubles, et conservons les sous-ensembles complets lorsque le filtrage est indéfini ou rendrait les comparaisons instables. Cela donne OmniClean, une vue d'évaluation nettoyée avec 8 551 requêtes conservées sur 16 968 requêtes auditées. Sur OmniClean, nous évaluons OmniBoost, une recette de post-entraînement en trois étapes basée sur Qwen2.5-Omni-3B : SFT bi-modal mixte, RLVR à modalités mixtes, et SFT sur données auto-distillées. Le SFT bi-modal équilibré donne des gains limités et inégaux, le RLVR fournit la première amélioration large, et l'auto-distillation remodèle le profil de référence. Après le SFT sur données auto-distillées, le modèle 3B atteint des performances comparables, et globalement légèrement supérieures, à Qwen3-Omni-30B-A3B-Instruct sans utiliser un enseignant omni-modal plus fort. Ces résultats montrent que les progrès omni-modaux sont plus faciles à interpréter lorsque l'évaluation contrôle les fuites visuelles, et que les petits modèles omni-modaux peuvent bénéficier d'un post-entraînement par étapes avec une supervision par requête omni auto-distillée. Page du projet : https://cheliu-computation.github.io/omni/

English

Omni-modal language models are intended to jointly understand audio, visual inputs, and language, but benchmark gains can be inflated when visual evidence alone is enough to answer a query. We study whether current omni-modal benchmarks separate visual shortcuts from genuine audio-visual-language evidence integration, and how post-training behaves under a visually debiased evaluation setting. We audit nine omni-modal benchmarks with visual-only probing, remove visually solvable queries, and retain full subsets when filtering is undefined or would make comparisons unstable. This yields OmniClean, a cleaned evaluation view with 8,551 retained queries from 16,968 audited queries. On OmniClean, we evaluate OmniBoost, a three-stage post-training recipe based on Qwen2.5-Omni-3B: mixed bi-modal SFT, mixed-modality RLVR, and SFT on self-distilled data. Balanced bi-modal SFT gives limited and uneven gains, RLVR provides the first broad improvement, and self-distillation reshapes the benchmark profile. After SFT on self-distilled data, the 3B model reaches performance comparable to, and in aggregate slightly above, Qwen3-Omni-30B-A3B-Instruct without using a stronger omni-modal teacher. These results show that omni-modal progress is easier to interpret when evaluation controls visual leakage, and that small omni-modal models can benefit from staged post-training with self-distilled omni-query supervision. Project page: https://cheliu-computation.github.io/omni/