Повышение эффективности омнимодальных языковых моделей: поэтапное пост-обучение с оценкой, устраняющей визуальные смещения

Аннотация

Омнимодальные языковые модели предназначены для совместного понимания аудио, визуальных входных данных и языка, однако прирост результатов на бенчмарках может быть завышен, если для ответа на запрос достаточно только визуальных свидетельств. Мы исследуем, разделяют ли текущие омнимодальные бенчмарки визуальные сокращения (shortcuts) и подлинную интеграцию аудио-визуально-языковых свидетельств, а также как ведёт себя пост-обучение в условиях визуально дебазированной оценки. Мы проводим аудит девяти омнимодальных бенчмарков с помощью визуального зондирования, удаляем визуально решаемые запросы и сохраняем полные подмножества, когда фильтрация не определена или сделала бы сравнения нестабильными. Это даёт OmniClean — очищенный оценочный набор из 8 551 сохранённых запросов из 16 968 проверенных. На OmniClean мы оцениваем OmniBoost — трёхэтапную процедуру пост-обучения на основе Qwen2.5-Omni-3B: смешанный би-модальный SFT, многомодальный RLVR со смешанными модальностями и SFT на самодистиллированных данных. Сбалансированный би-модальный SFT даёт ограниченные и неравномерные улучшения, RLVR обеспечивает первое широкое улучшение, а самодистилляция меняет профиль бенчмарка. После SFT на самодистиллированных данных модель с 3B параметров достигает производительности, сопоставимой с Qwen3-Omni-30B-A3B-Instruct, а в совокупности — незначительно превосходящей её, без использования более сильного омнимодального учителя. Эти результаты показывают, что прогресс в омнимодальности легче интерпретировать, когда оценка контролирует визуальную утечку, и что малые омнимодальные модели могут выигрывать от поэтапного пост-обучения с самодистиллированным омнимодальным супервизором. Страница проекта: https://cheliu-computation.github.io/omni/

English

Omni-modal language models are intended to jointly understand audio, visual inputs, and language, but benchmark gains can be inflated when visual evidence alone is enough to answer a query. We study whether current omni-modal benchmarks separate visual shortcuts from genuine audio-visual-language evidence integration, and how post-training behaves under a visually debiased evaluation setting. We audit nine omni-modal benchmarks with visual-only probing, remove visually solvable queries, and retain full subsets when filtering is undefined or would make comparisons unstable. This yields OmniClean, a cleaned evaluation view with 8,551 retained queries from 16,968 audited queries. On OmniClean, we evaluate OmniBoost, a three-stage post-training recipe based on Qwen2.5-Omni-3B: mixed bi-modal SFT, mixed-modality RLVR, and SFT on self-distilled data. Balanced bi-modal SFT gives limited and uneven gains, RLVR provides the first broad improvement, and self-distillation reshapes the benchmark profile. After SFT on self-distilled data, the 3B model reaches performance comparable to, and in aggregate slightly above, Qwen3-Omni-30B-A3B-Instruct without using a stronger omni-modal teacher. These results show that omni-modal progress is easier to interpret when evaluation controls visual leakage, and that small omni-modal models can benefit from staged post-training with self-distilled omni-query supervision. Project page: https://cheliu-computation.github.io/omni/