Достигаем ли мы прогресса в мультимодальной доменной генерализации? Комплексное сравнительное исследование

Аннотация

Несмотря на растущую популярность мультимодальной генерализации доменов (MMDG) для повышения устойчивости моделей, остается неясным, отражают ли заявленные улучшения производительности подлинный алгоритмический прогресс или являются артефактами несогласованных протоколов оценки. Современные исследования фрагментированы: работы значительно различаются по наборам данных, конфигурациям модальностей и экспериментальным условиям. Более того, существующие бенчмарки сосредоточены преимущественно на распознавании действий, часто игнорируя важные практические проблемы, такие как искажения входных данных, отсутствующие модальности и надежность моделей. Отсутствие стандартизации затрудняет достоверную оценку прогресса в данной области. Для решения этой проблемы мы представляем MMDG-Bench — первый унифицированный и комплексный бенчмарк для MMDG, который стандартизирует оценку на шести наборах данных, охватывающих три различные задачи: распознавание действий, диагностика механических неисправностей и анализ тональности. MMDG-Bench включает шесть комбинаций модальностей, девять репрезентативных методов и несколько режимов оценки. Помимо стандартной точности, он систематически оценивает устойчивость к искажениям, обобщающую способность при отсутствующих модальностях, обнаружение ошибок классификации и детектирование данных вне распределения. В общей сложности было обучено 7 402 нейронных сети в рамках 95 уникальных междоменных задач, что позволило получить пять ключевых выводов: (1) при честном сравнении современные специализированные методы MMDG дают лишь незначительное улучшение по сравнению с базовым методом ERM; (2) ни один метод не демонстрирует стабильного превосходства над другими на всех наборах данных или комбинациях модальностей; (3) сохраняется значительный разрыв с верхней границей производительности, что указывает на то, что проблема MDDG далека от решения; (4) тримодальное fusion не превосходит стабильно сильнейшие бимодальные конфигурации; (5) все оцениваемые методы демонстрируют значительную деградацию в условиях искажений и отсутствующих модальностей, причем некоторые методы дополнительно снижают надежность моделей.

English

Despite the growing popularity of Multimodal Domain Generalization (MMDG) for enhancing model robustness, it remains unclear whether reported performance gains reflect genuine algorithmic progress or are artifacts of inconsistent evaluation protocols. Current research is fragmented, with studies varying significantly across datasets, modality configurations, and experimental settings. Furthermore, existing benchmarks focus predominantly on action recognition, often neglecting critical real-world challenges such as input corruptions, missing modalities, and model trustworthiness. This lack of standardization obscures a reliable assessment of the field's advancement. To address this issue, we introduce MMDG-Bench, the first unified and comprehensive benchmark for MMDG, which standardizes evaluation across six datasets spanning three diverse tasks: action recognition, mechanical fault diagnosis, and sentiment analysis. MMDG-Bench encompasses six modality combinations, nine representative methods, and multiple evaluation settings. Beyond standard accuracy, it systematically assesses corruption robustness, missing-modality generalization, misclassification detection, and out-of-distribution detection. With 7, 402 neural networks trained in total across 95 unique cross-domain tasks, MMDG-Bench yields five key findings: (1) under fair comparisons, recent specialized MMDG methods offer only marginal improvements over ERM baseline; (2) no single method consistently outperforms others across datasets or modality combinations; (3) a substantial gap to upper-bound performance persists, indicating that MMDG remains far from solved; (4) trimodal fusion does not consistently outperform the strongest bimodal configurations; and (5) all evaluated methods exhibit significant degradation under corruption and missing-modality scenarios, with some methods further compromising model trustworthiness.

Достигаем ли мы прогресса в мультимодальной доменной генерализации? Комплексное сравнительное исследование

Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study

Аннотация

Support