Boeken We Vooruitgang in Multimodale Domeingeneralizatie? Een Uitgebreide Benchmarkstudie
Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study
May 7, 2026
Auteurs: Hao Dong, Hongzhao Li, Shupan Li, Muhammad Haris Khan, Eleni Chatzi, Olga Fink
cs.AI
Samenvatting
Ondanks de groeiende populariteit van Multimodale Domein Generalisatie (MMDG) voor het verbeteren van modelrobuustheid, is het onduidelijk of gerapporteerde prestatieverbeteringen echte algoritmische vooruitgang weerspiegelen of artefacten zijn van inconsistente evaluatieprotocollen. Het huidige onderzoek is gefragmenteerd, waarbij studies aanzienlijk variëren in datasets, modaliteitsconfiguraties en experimentele settings. Bovendien richten bestaande benchmarks zich voornamelijk op actieherkenning en negeren vaak kritieke uitdagingen uit de praktijk, zoals inputcorruptie, ontbrekende modaliteiten en modelbetrouwbaarheid. Dit gebrek aan standaardisatie verhult een betrouwbare beoordeling van de vooruitgang in het veld. Om dit probleem aan te pakken, introduceren wij MMDG-Bench, de eerste verenigde en uitgebreide benchmark voor MMDG, die evaluatie standaardiseert over zes datasets die drie uiteenlopende taken beslaan: actieherkenning, mechanische foutdiagnose en sentimentanalyse. MMDG-Bench omvat zes modaliteitscombinaties, negen representatieve methoden en meerdere evaluatiesettings. Naast standaardnauwkeurigheid beoordeelt het systematisch corruptierobuustheid, generalisatie bij ontbrekende modaliteiten, misclassificatiedetectie en out-of-distribution-detectie. Met in totaal 7.402 getrainde neurale netwerken verspreid over 95 unieke cross-domein taken, levert MMDG-Bench vijf belangrijke bevindingen op: (1) onder eerlijke vergelijkingen bieden recente gespecialiseerde MMDG-methoden slechts marginale verbeteringen ten opzichte van de ERM-baseline; (2) geen enkele methode presteert consistent beter dan andere over datasets of modaliteitscombinaties; (3) een aanzienlijke kloof tot de bovengrens van de prestaties blijft bestaan, wat aangeeft dat MMDG verre van opgelost is; (4) trimodale fusie presteert niet consistent beter dan de sterkste bimodale configuraties; en (5) alle geëvalueerde methoden vertonen significante prestatievermindering onder corruptie- en ontbrekende-modaliteit-scenario's, waarbij sommige methoden de modelbetrouwbaarheid verder aantasten.
English
Despite the growing popularity of Multimodal Domain Generalization (MMDG) for enhancing model robustness, it remains unclear whether reported performance gains reflect genuine algorithmic progress or are artifacts of inconsistent evaluation protocols. Current research is fragmented, with studies varying significantly across datasets, modality configurations, and experimental settings. Furthermore, existing benchmarks focus predominantly on action recognition, often neglecting critical real-world challenges such as input corruptions, missing modalities, and model trustworthiness. This lack of standardization obscures a reliable assessment of the field's advancement. To address this issue, we introduce MMDG-Bench, the first unified and comprehensive benchmark for MMDG, which standardizes evaluation across six datasets spanning three diverse tasks: action recognition, mechanical fault diagnosis, and sentiment analysis. MMDG-Bench encompasses six modality combinations, nine representative methods, and multiple evaluation settings. Beyond standard accuracy, it systematically assesses corruption robustness, missing-modality generalization, misclassification detection, and out-of-distribution detection. With 7, 402 neural networks trained in total across 95 unique cross-domain tasks, MMDG-Bench yields five key findings: (1) under fair comparisons, recent specialized MMDG methods offer only marginal improvements over ERM baseline; (2) no single method consistently outperforms others across datasets or modality combinations; (3) a substantial gap to upper-bound performance persists, indicating that MMDG remains far from solved; (4) trimodal fusion does not consistently outperform the strongest bimodal configurations; and (5) all evaluated methods exhibit significant degradation under corruption and missing-modality scenarios, with some methods further compromising model trustworthiness.