Intégration de mécanismes inspirés du cerveau pour l'apprentissage multimodal dans l'intelligence artificielle
Incorporating brain-inspired mechanisms for multimodal learning in artificial intelligence
May 15, 2025
Auteurs: Xiang He, Dongcheng Zhao, Yang Li, Qingqun Kong, Xin Yang, Yi Zeng
cs.AI
Résumé
L'apprentissage multimodal améliore les capacités perceptives des systèmes cognitifs en intégrant des informations provenant de différentes modalités sensorielles. Cependant, les recherches existantes sur la fusion multimodale supposent généralement une intégration statique, ne prenant pas pleinement en compte les mécanismes dynamiques clés observés dans le cerveau. Plus précisément, le cerveau présente un phénomène d'efficacité inverse, où des indices unimodaux plus faibles entraînent des bénéfices d'intégration multisensorielle plus importants ; à l'inverse, lorsque les indices individuels sont plus forts, l'effet de la fusion est atténué. Ce mécanisme permet aux systèmes biologiques d'atteindre une cognition robuste même avec des indices perceptuels rares ou bruités. Inspirés par ce mécanisme biologique, nous explorons la relation entre la sortie multimodale et les informations provenant des modalités individuelles, proposant une stratégie de fusion multimodale pilotée par l'efficacité inverse (IEMF). En intégrant cette stratégie dans les réseaux de neurones, nous obtenons une intégration plus efficace avec une amélioration des performances du modèle et de l'efficacité computationnelle, démontrant une réduction allant jusqu'à 50 % des coûts de calcul pour diverses méthodes de fusion. Nous menons des expériences sur des tâches de classification audio-visuelle, d'apprentissage continu et de réponse à des questions pour valider notre méthode. Les résultats montrent systématiquement que notre méthode excelle dans ces tâches. Pour vérifier l'universalité et la généralisation, nous menons également des expériences sur les réseaux de neurones artificiels (ANN) et les réseaux de neurones à impulsions (SNN), avec des résultats montrant une bonne adaptabilité aux deux types de réseaux. Notre recherche met en avant le potentiel d'intégration de mécanismes inspirés de la biologie dans les réseaux multimodaux et propose des directions prometteuses pour le développement futur de l'intelligence artificielle multimodale. Le code est disponible à l'adresse https://github.com/Brain-Cog-Lab/IEMF.
English
Multimodal learning enhances the perceptual capabilities of cognitive systems
by integrating information from different sensory modalities. However, existing
multimodal fusion research typically assumes static integration, not fully
incorporating key dynamic mechanisms found in the brain. Specifically, the
brain exhibits an inverse effectiveness phenomenon, wherein weaker unimodal
cues yield stronger multisensory integration benefits; conversely, when
individual modal cues are stronger, the effect of fusion is diminished. This
mechanism enables biological systems to achieve robust cognition even with
scarce or noisy perceptual cues. Inspired by this biological mechanism, we
explore the relationship between multimodal output and information from
individual modalities, proposing an inverse effectiveness driven multimodal
fusion (IEMF) strategy. By incorporating this strategy into neural networks, we
achieve more efficient integration with improved model performance and
computational efficiency, demonstrating up to 50% reduction in computational
cost across diverse fusion methods. We conduct experiments on audio-visual
classification, continual learning, and question answering tasks to validate
our method. Results consistently demonstrate that our method performs
excellently in these tasks. To verify universality and generalization, we also
conduct experiments on Artificial Neural Networks (ANN) and Spiking Neural
Networks (SNN), with results showing good adaptability to both network types.
Our research emphasizes the potential of incorporating biologically inspired
mechanisms into multimodal networks and provides promising directions for the
future development of multimodal artificial intelligence. The code is available
at https://github.com/Brain-Cog-Lab/IEMF.Summary
AI-Generated Summary