Faisons-nous des progrès dans la généralisation de domaine multimodale ? Une étude comparative exhaustive

Résumé

Malgré la popularité croissante de la généralisation de domaine multimodale (MMDG) pour renforcer la robustesse des modèles, il reste difficile de déterminer si les gains de performance rapportés reflètent un progrès algorithmique authentique ou sont des artefacts liés à des protocoles d'évaluation incohérents. La recherche actuelle est fragmentée, les études variant considérablement selon les jeux de données, les configurations de modalités et les paramètres expérimentaux. De plus, les benchmarks existants se concentrent principalement sur la reconnaissance d'actions, négligeant souvent des défis critiques du monde réel tels que les corruptions des entrées, les modalités manquantes et la confiance dans les modèles. Ce manque de standardisation empêche une évaluation fiable des progrès réalisés dans ce domaine. Pour résoudre ce problème, nous présentons MMDG-Bench, le premier benchmark unifié et complet pour la MMDG, qui standardise l'évaluation sur six jeux de données couvrant trois tâches distinctes : la reconnaissance d'actions, le diagnostic de pannes mécaniques et l'analyse de sentiments. MMDG-Bench englobe six combinaisons de modalités, neuf méthodes représentatives et plusieurs scénarios d'évaluation. Au-delà de la précision standard, il évalue systématiquement la robustesse à la corruption, la généralisation aux modalités manquantes, la détection des erreurs de classification et la détection des données hors distribution. Avec 7 402 réseaux de neurones entraînés au total sur 95 tâches inter-domaines uniques, MMDG-Bench révèle cinq conclusions majeures : (1) dans des comparaisons équitables, les méthodes MMDG spécialisées récentes n'apportent que des améliorations marginales par rapport à la baseline ERM ; (2) aucune méthode ne surpasse systématiquement les autres sur l'ensemble des jeux de données ou des combinaisons de modalités ; (3) un écart important persiste par rapport à la performance maximale théorique, indiquant que la MMDG est loin d'être résolue ; (4) la fusion trimodale ne surpasse pas systématiquement les configurations bimodales les plus robustes ; et (5) toutes les méthodes évaluées présentent une dégradation significative dans les scénarios de corruption et de modalités manquantes, certaines méthodes compromettant en outre la confiance dans le modèle.

English

Despite the growing popularity of Multimodal Domain Generalization (MMDG) for enhancing model robustness, it remains unclear whether reported performance gains reflect genuine algorithmic progress or are artifacts of inconsistent evaluation protocols. Current research is fragmented, with studies varying significantly across datasets, modality configurations, and experimental settings. Furthermore, existing benchmarks focus predominantly on action recognition, often neglecting critical real-world challenges such as input corruptions, missing modalities, and model trustworthiness. This lack of standardization obscures a reliable assessment of the field's advancement. To address this issue, we introduce MMDG-Bench, the first unified and comprehensive benchmark for MMDG, which standardizes evaluation across six datasets spanning three diverse tasks: action recognition, mechanical fault diagnosis, and sentiment analysis. MMDG-Bench encompasses six modality combinations, nine representative methods, and multiple evaluation settings. Beyond standard accuracy, it systematically assesses corruption robustness, missing-modality generalization, misclassification detection, and out-of-distribution detection. With 7, 402 neural networks trained in total across 95 unique cross-domain tasks, MMDG-Bench yields five key findings: (1) under fair comparisons, recent specialized MMDG methods offer only marginal improvements over ERM baseline; (2) no single method consistently outperforms others across datasets or modality combinations; (3) a substantial gap to upper-bound performance persists, indicating that MMDG remains far from solved; (4) trimodal fusion does not consistently outperform the strongest bimodal configurations; and (5) all evaluated methods exhibit significant degradation under corruption and missing-modality scenarios, with some methods further compromising model trustworthiness.

Faisons-nous des progrès dans la généralisation de domaine multimodale ? Une étude comparative exhaustive

Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study

Résumé

Support