Het integreren van hersen-geïnspireerde mechanismen voor multimodale leren in kunstmatige intelligentie
Incorporating brain-inspired mechanisms for multimodal learning in artificial intelligence
May 15, 2025
Auteurs: Xiang He, Dongcheng Zhao, Yang Li, Qingqun Kong, Xin Yang, Yi Zeng
cs.AI
Samenvatting
Multimodaal leren verbetert de perceptuele vermogens van cognitieve systemen
door informatie uit verschillende sensorische modaliteiten te integreren. Echter,
bestaand onderzoek naar multimodale fusie gaat doorgaans uit van statische
integratie, waarbij belangrijke dynamische mechanismen die in de hersenen
worden aangetroffen niet volledig worden meegenomen. Specifiek vertonen de
hersenen een fenomeen van inverse effectiviteit, waarbij zwakkere unimodale
signalen sterkere voordelen van multisensorische integratie opleveren; omgekeerd
wordt het effect van fusie verminderd wanneer individuele modale signalen
sterker zijn. Dit mechanisme stelt biologische systemen in staat om robuuste
cognitie te bereiken, zelfs met schaarse of ruisachtige perceptuele signalen.
Geïnspireerd door dit biologische mechanisme, onderzoeken we de relatie tussen
multimodale output en informatie uit individuele modaliteiten, en stellen we een
inverse effectiviteit-gestuurde multimodale fusie (IEMF) strategie voor. Door
deze strategie in neurale netwerken te integreren, bereiken we een efficiëntere
integratie met verbeterde modelprestaties en rekenkundige efficiëntie, wat
resulteert in een reductie van tot wel 50% in rekenkosten bij diverse
fusiemethoden. We voeren experimenten uit op het gebied van audio-visuele
classificatie, continu leren en vraag-antwoordtaken om onze methode te valideren.
De resultaten tonen consistent aan dat onze methode uitstekend presteert in deze
taken. Om universaliteit en generalisatie te verifiëren, voeren we ook
experimenten uit op Kunstmatige Neurale Netwerken (ANN) en Spiking Neurale
Netwerken (SNN), waarbij de resultaten een goede aanpassingsvermogen aan beide
netwerktypen laten zien. Ons onderzoek benadrukt het potentieel van het
integreren van biologisch geïnspireerde mechanismen in multimodale netwerken en
biedt veelbelovende richtingen voor de toekomstige ontwikkeling van multimodale
kunstmatige intelligentie. De code is beschikbaar op
https://github.com/Brain-Cog-Lab/IEMF.
English
Multimodal learning enhances the perceptual capabilities of cognitive systems
by integrating information from different sensory modalities. However, existing
multimodal fusion research typically assumes static integration, not fully
incorporating key dynamic mechanisms found in the brain. Specifically, the
brain exhibits an inverse effectiveness phenomenon, wherein weaker unimodal
cues yield stronger multisensory integration benefits; conversely, when
individual modal cues are stronger, the effect of fusion is diminished. This
mechanism enables biological systems to achieve robust cognition even with
scarce or noisy perceptual cues. Inspired by this biological mechanism, we
explore the relationship between multimodal output and information from
individual modalities, proposing an inverse effectiveness driven multimodal
fusion (IEMF) strategy. By incorporating this strategy into neural networks, we
achieve more efficient integration with improved model performance and
computational efficiency, demonstrating up to 50% reduction in computational
cost across diverse fusion methods. We conduct experiments on audio-visual
classification, continual learning, and question answering tasks to validate
our method. Results consistently demonstrate that our method performs
excellently in these tasks. To verify universality and generalization, we also
conduct experiments on Artificial Neural Networks (ANN) and Spiking Neural
Networks (SNN), with results showing good adaptability to both network types.
Our research emphasizes the potential of incorporating biologically inspired
mechanisms into multimodal networks and provides promising directions for the
future development of multimodal artificial intelligence. The code is available
at https://github.com/Brain-Cog-Lab/IEMF.Summary
AI-Generated Summary