人工知能におけるマルチモーダル学習のための脳に着想を得たメカニズムの統合
Incorporating brain-inspired mechanisms for multimodal learning in artificial intelligence
May 15, 2025
著者: Xiang He, Dongcheng Zhao, Yang Li, Qingqun Kong, Xin Yang, Yi Zeng
cs.AI
要旨
マルチモーダル学習は、異なる感覚モダリティからの情報を統合することで、認知システムの知覚能力を強化します。しかし、既存のマルチモーダル融合研究は、通常、静的な統合を前提としており、脳に見られる重要な動的メカニズムを十分に取り入れていません。具体的には、脳は逆有効性現象を示し、単一モダリティの手がかりが弱いほど、多感覚統合の利点が強くなる一方で、個々のモダリティの手がかりが強い場合、融合の効果は減少します。このメカニズムにより、生物学的システムは、知覚手がかりが乏しいかノイズが多い状況でも、堅牢な認知を達成できます。この生物学的メカニズムに着想を得て、我々はマルチモーダル出力と個々のモダリティからの情報の関係を探り、逆有効性駆動型マルチモーダル融合(IEMF)戦略を提案します。この戦略をニューラルネットワークに組み込むことで、モデルの性能と計算効率が向上し、多様な融合手法において計算コストを最大50%削減できることを実証しました。我々は、音声視覚分類、継続学習、質問応答タスクにおいて実験を行い、本手法の有効性を検証しました。結果は、本手法がこれらのタスクで優れた性能を発揮することを一貫して示しています。普遍性と汎化性を検証するため、人工ニューラルネットワーク(ANN)とスパイキングニューラルネットワーク(SNN)での実験も行い、両ネットワークタイプに対して良好な適応性を示す結果を得ました。本研究は、生物学的にインスパイアされたメカニズムをマルチモーダルネットワークに組み込む可能性を強調し、マルチモーダル人工知能の将来の発展に向けた有望な方向性を提供します。コードはhttps://github.com/Brain-Cog-Lab/IEMFで公開されています。
English
Multimodal learning enhances the perceptual capabilities of cognitive systems
by integrating information from different sensory modalities. However, existing
multimodal fusion research typically assumes static integration, not fully
incorporating key dynamic mechanisms found in the brain. Specifically, the
brain exhibits an inverse effectiveness phenomenon, wherein weaker unimodal
cues yield stronger multisensory integration benefits; conversely, when
individual modal cues are stronger, the effect of fusion is diminished. This
mechanism enables biological systems to achieve robust cognition even with
scarce or noisy perceptual cues. Inspired by this biological mechanism, we
explore the relationship between multimodal output and information from
individual modalities, proposing an inverse effectiveness driven multimodal
fusion (IEMF) strategy. By incorporating this strategy into neural networks, we
achieve more efficient integration with improved model performance and
computational efficiency, demonstrating up to 50% reduction in computational
cost across diverse fusion methods. We conduct experiments on audio-visual
classification, continual learning, and question answering tasks to validate
our method. Results consistently demonstrate that our method performs
excellently in these tasks. To verify universality and generalization, we also
conduct experiments on Artificial Neural Networks (ANN) and Spiking Neural
Networks (SNN), with results showing good adaptability to both network types.
Our research emphasizes the potential of incorporating biologically inspired
mechanisms into multimodal networks and provides promising directions for the
future development of multimodal artificial intelligence. The code is available
at https://github.com/Brain-Cog-Lab/IEMF.Summary
AI-Generated Summary