¿Estamos progresando en la generalización multimodal de dominios? Un estudio de referencia integral
Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study
May 7, 2026
Autores: Hao Dong, Hongzhao Li, Shupan Li, Muhammad Haris Khan, Eleni Chatzi, Olga Fink
cs.AI
Resumen
A pesar de la creciente popularidad de la Generalización de Dominios Multimodal (MMDG) para mejorar la robustez de los modelos, aún no está claro si las ganancias de rendimiento reportadas reflejan un progreso algorítmico genuino o son artefactos de protocolos de evaluación inconsistentes. La investigación actual está fragmentada, con estudios que varían significativamente en conjuntos de datos, configuraciones de modalidad y ajustes experimentales. Además, los puntos de referencia existentes se centran predominantemente en el reconocimiento de acciones, a menudo descuidando desafíos críticos del mundo real como las corrupciones de entrada, las modalidades faltantes y la confiabilidad del modelo. Esta falta de estandarización dificulta una evaluación fiable del avance del campo. Para abordar este problema, presentamos MMDG-Bench, el primer punto de referencia unificado y exhaustivo para MMDG, que estandariza la evaluación en seis conjuntos de datos que abarcan tres tareas diversas: reconocimiento de acciones, diagnóstico de fallas mecánicas y análisis de sentimientos. MMDG-Bench abarca seis combinaciones de modalidades, nueve métodos representativos y múltiples configuraciones de evaluación. Más allá de la precisión estándar, evalúa sistemáticamente la robustez ante corrupciones, la generalización con modalidades faltantes, la detección de clasificaciones erróneas y la detección fuera de distribución. Con un total de 7.402 redes neuronales entrenadas en 95 tareas cruzadas de dominio únicas, MMDG-Bench arroja cinco hallazgos clave: (1) bajo comparaciones justas, los métodos especializados recientes de MMDG ofrecen solo mejoras marginales sobre la línea base de ERM; (2) ningún método supera consistentemente a los demás en todos los conjuntos de datos o combinaciones de modalidades; (3) persiste una brecha sustancial con respecto al límite superior de rendimiento, lo que indica que la MMDG está lejos de estar resuelta; (4) la fusión trimodal no supera consistentemente a las configuraciones bimodales más sólidas; y (5) todos los métodos evaluados exhiben una degradación significativa bajo escenarios de corrupción y modalidades faltantes, y algunos métodos comprometen aún más la confiabilidad del modelo.
English
Despite the growing popularity of Multimodal Domain Generalization (MMDG) for enhancing model robustness, it remains unclear whether reported performance gains reflect genuine algorithmic progress or are artifacts of inconsistent evaluation protocols. Current research is fragmented, with studies varying significantly across datasets, modality configurations, and experimental settings. Furthermore, existing benchmarks focus predominantly on action recognition, often neglecting critical real-world challenges such as input corruptions, missing modalities, and model trustworthiness. This lack of standardization obscures a reliable assessment of the field's advancement. To address this issue, we introduce MMDG-Bench, the first unified and comprehensive benchmark for MMDG, which standardizes evaluation across six datasets spanning three diverse tasks: action recognition, mechanical fault diagnosis, and sentiment analysis. MMDG-Bench encompasses six modality combinations, nine representative methods, and multiple evaluation settings. Beyond standard accuracy, it systematically assesses corruption robustness, missing-modality generalization, misclassification detection, and out-of-distribution detection. With 7, 402 neural networks trained in total across 95 unique cross-domain tasks, MMDG-Bench yields five key findings: (1) under fair comparisons, recent specialized MMDG methods offer only marginal improvements over ERM baseline; (2) no single method consistently outperforms others across datasets or modality combinations; (3) a substantial gap to upper-bound performance persists, indicating that MMDG remains far from solved; (4) trimodal fusion does not consistently outperform the strongest bimodal configurations; and (5) all evaluated methods exhibit significant degradation under corruption and missing-modality scenarios, with some methods further compromising model trustworthiness.