Die Integration von hirninspirierten Mechanismen für multimodales Lernen in der künstlichen Intelligenz
Incorporating brain-inspired mechanisms for multimodal learning in artificial intelligence
May 15, 2025
Autoren: Xiang He, Dongcheng Zhao, Yang Li, Qingqun Kong, Xin Yang, Yi Zeng
cs.AI
Zusammenfassung
Multimodales Lernen verbessert die Wahrnehmungsfähigkeiten kognitiver Systeme, indem es Informationen aus verschiedenen sensorischen Modalitäten integriert. Bisherige Forschungen zur multimodalen Fusion gehen jedoch typischerweise von einer statischen Integration aus und berücksichtigen nicht vollständig die dynamischen Mechanismen, die im Gehirn zu finden sind. Insbesondere zeigt das Gehirn ein Phänomen der inversen Effektivität, bei dem schwächere unimodale Hinweise stärkere Vorteile bei der multisensorischen Integration bieten; umgekehrt wird der Fusionseffekt verringert, wenn die Hinweise einzelner Modalitäten stärker sind. Dieser Mechanismus ermöglicht es biologischen Systemen, robuste Kognition selbst bei knappen oder verrauschten Wahrnehmungshinweisen zu erreichen. Inspiriert von diesem biologischen Mechanismus untersuchen wir die Beziehung zwischen multimodaler Ausgabe und Informationen aus einzelnen Modalitäten und schlagen eine durch inverse Effektivität gesteuerte multimodale Fusionsstrategie (IEMF) vor. Durch die Integration dieser Strategie in neuronale Netze erreichen wir eine effizientere Integration mit verbesserter Modellleistung und Recheneffizienz, was eine Reduzierung der Rechenkosten um bis zu 50 % über verschiedene Fusionsmethoden hinweg demonstriert. Wir führen Experimente zur audiovisuellen Klassifikation, kontinuierlichem Lernen und Frage-Antwort-Aufgaben durch, um unsere Methode zu validieren. Die Ergebnisse zeigen durchweg, dass unsere Methode in diesen Aufgaben hervorragend abschneidet. Um die Universalität und Generalisierbarkeit zu überprüfen, führen wir auch Experimente mit Künstlichen Neuronalen Netzen (ANN) und Spiking Neural Networks (SNN) durch, wobei die Ergebnisse eine gute Anpassungsfähigkeit an beide Netzwerktypen zeigen. Unsere Forschung unterstreicht das Potenzial der Einbindung biologisch inspirierter Mechanismen in multimodale Netze und bietet vielversprechende Richtungen für die zukünftige Entwicklung multimodaler künstlicher Intelligenz. Der Code ist unter https://github.com/Brain-Cog-Lab/IEMF verfügbar.
English
Multimodal learning enhances the perceptual capabilities of cognitive systems
by integrating information from different sensory modalities. However, existing
multimodal fusion research typically assumes static integration, not fully
incorporating key dynamic mechanisms found in the brain. Specifically, the
brain exhibits an inverse effectiveness phenomenon, wherein weaker unimodal
cues yield stronger multisensory integration benefits; conversely, when
individual modal cues are stronger, the effect of fusion is diminished. This
mechanism enables biological systems to achieve robust cognition even with
scarce or noisy perceptual cues. Inspired by this biological mechanism, we
explore the relationship between multimodal output and information from
individual modalities, proposing an inverse effectiveness driven multimodal
fusion (IEMF) strategy. By incorporating this strategy into neural networks, we
achieve more efficient integration with improved model performance and
computational efficiency, demonstrating up to 50% reduction in computational
cost across diverse fusion methods. We conduct experiments on audio-visual
classification, continual learning, and question answering tasks to validate
our method. Results consistently demonstrate that our method performs
excellently in these tasks. To verify universality and generalization, we also
conduct experiments on Artificial Neural Networks (ANN) and Spiking Neural
Networks (SNN), with results showing good adaptability to both network types.
Our research emphasizes the potential of incorporating biologically inspired
mechanisms into multimodal networks and provides promising directions for the
future development of multimodal artificial intelligence. The code is available
at https://github.com/Brain-Cog-Lab/IEMF.Summary
AI-Generated Summary