Machen wir Fortschritte in der multimodalen Domänenverallgemeinerung? Eine umfassende Benchmark-Studie

Zusammenfassung

Trotz der wachsenden Beliebtheit von multimodaler Domänenverallgemeinerung (MMDG) zur Verbesserung der Modellrobustheit bleibt unklar, ob die berichteten Leistungssteigerungen echten algorithmischen Fortschritt widerspiegeln oder lediglich Artefakte inkonsistenter Evaluierungsprotokolle sind. Die aktuelle Forschung ist fragmentiert, wobei sich Studien erheblich in Bezug auf Datensätze, Modalitätskonfigurationen und experimentelle Settings unterscheiden. Darüber hinaus konzentrieren sich bestehende Benchmarks überwiegend auf Aktionserkennung und vernachlässigen oft kritische reale Herausforderungen wie Eingabekorruption, fehlende Modalitäten und Modellvertrauenswürdigkeit. Dieser Mangel an Standardisierung verhindert eine zuverlässige Bewertung des Fortschritts in diesem Forschungsgebiet. Um dieses Problem zu adressieren, stellen wir MMDG-Bench vor, den ersten einheitlichen und umfassenden Benchmark für MMDG, der die Evaluation über sechs Datensätze hinweg standardisiert, die drei verschiedene Aufgaben abdecken: Aktionserkennung, mechanische Fehlerdiagnose und Stimmungsanalyse. MMDG-Bench umfasst sechs Modalitätskombinationen, neun repräsentative Methoden und mehrere Evaluierungssettings. Über die Standardgenauigkeit hinaus bewertet es systematisch die Robustheit gegenüber Korruption, die Verallgemeinerungsfähigkeit bei fehlenden Modalitäten, die Fehlklassifikationserkennung und die Out-of-Distribution-Erkennung. Mit insgesamt 7.402 trainierten neuronalen Netzen über 95 einzigartige domänenübergreifende Aufgaben hinweg liefert MMDG-Bench fünf zentrale Erkenntnisse: (1) Unter fairen Vergleichsbedingungen bieten neuere spezialisierte MMDG-Methoden nur marginale Verbesserungen gegenüber der ERM-Baseline; (2) keine einzelne Methode schnegt durchgängig besser ab als andere über Datensätze oder Modalitätskombinationen hinweg; (3) eine erhebliche Lücke zur oberen Leistungsgrenze bleibt bestehen, was darauf hindeutet, dass MMDG noch lange nicht gelöst ist; (4) trimodale Fusion übertrifft nicht konsistent die stärksten bimodalen Konfigurationen; und (5) alle evaluierten Methoden zeigen eine signifikante Verschlechterung unter Korruptions- und Szenarien mit fehlenden Modalitäten, wobei einige Methoden zudem die Modellvertrauenswürdigkeit beeinträchtigen.

English

Despite the growing popularity of Multimodal Domain Generalization (MMDG) for enhancing model robustness, it remains unclear whether reported performance gains reflect genuine algorithmic progress or are artifacts of inconsistent evaluation protocols. Current research is fragmented, with studies varying significantly across datasets, modality configurations, and experimental settings. Furthermore, existing benchmarks focus predominantly on action recognition, often neglecting critical real-world challenges such as input corruptions, missing modalities, and model trustworthiness. This lack of standardization obscures a reliable assessment of the field's advancement. To address this issue, we introduce MMDG-Bench, the first unified and comprehensive benchmark for MMDG, which standardizes evaluation across six datasets spanning three diverse tasks: action recognition, mechanical fault diagnosis, and sentiment analysis. MMDG-Bench encompasses six modality combinations, nine representative methods, and multiple evaluation settings. Beyond standard accuracy, it systematically assesses corruption robustness, missing-modality generalization, misclassification detection, and out-of-distribution detection. With 7, 402 neural networks trained in total across 95 unique cross-domain tasks, MMDG-Bench yields five key findings: (1) under fair comparisons, recent specialized MMDG methods offer only marginal improvements over ERM baseline; (2) no single method consistently outperforms others across datasets or modality combinations; (3) a substantial gap to upper-bound performance persists, indicating that MMDG remains far from solved; (4) trimodal fusion does not consistently outperform the strongest bimodal configurations; and (5) all evaluated methods exhibit significant degradation under corruption and missing-modality scenarios, with some methods further compromising model trustworthiness.

Machen wir Fortschritte in der multimodalen Domänenverallgemeinerung? Eine umfassende Benchmark-Studie

Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study

Zusammenfassung

Support