Incorporare meccanismi ispirati al cervello per l'apprendimento multimodale nell'intelligenza artificiale
Incorporating brain-inspired mechanisms for multimodal learning in artificial intelligence
May 15, 2025
Autori: Xiang He, Dongcheng Zhao, Yang Li, Qingqun Kong, Xin Yang, Yi Zeng
cs.AI
Abstract
L'apprendimento multimodale potenzia le capacità percettive dei sistemi cognitivi integrando informazioni provenienti da diverse modalità sensoriali. Tuttavia, la ricerca esistente sulla fusione multimodale assume tipicamente un'integrazione statica, non incorporando pienamente i meccanismi dinamici chiave presenti nel cervello. Nello specifico, il cervello mostra un fenomeno di efficacia inversa, per cui segnali unimodali più deboli producono maggiori benefici nell'integrazione multisensoriale; al contrario, quando i segnali individuali sono più forti, l'effetto della fusione si riduce. Questo meccanismo consente ai sistemi biologici di raggiungere una cognizione robusta anche con segnali percettivi scarsi o rumorosi. Ispirati da questo meccanismo biologico, esploriamo la relazione tra l'output multimodale e le informazioni provenienti dalle singole modalità, proponendo una strategia di fusione multimodale guidata dall'efficacia inversa (IEMF). Incorporando questa strategia nelle reti neurali, otteniamo un'integrazione più efficiente con migliori prestazioni del modello e maggiore efficienza computazionale, dimostrando una riduzione dei costi computazionali fino al 50% in vari metodi di fusione. Condividiamo esperimenti su classificazione audio-visiva, apprendimento continuo e risposta a domande per validare il nostro metodo. I risultati dimostrano costantemente che il nostro metodo eccelle in questi compiti. Per verificare universalità e generalizzazione, conduciamo anche esperimenti su Reti Neurali Artificiali (ANN) e Reti Neurali a Spikes (SNN), con risultati che mostrano una buona adattabilità a entrambi i tipi di rete. La nostra ricerca sottolinea il potenziale di incorporare meccanismi ispirati alla biologia nelle reti multimodali e fornisce direzioni promettenti per lo sviluppo futuro dell'intelligenza artificiale multimodale. Il codice è disponibile su https://github.com/Brain-Cog-Lab/IEMF.
English
Multimodal learning enhances the perceptual capabilities of cognitive systems
by integrating information from different sensory modalities. However, existing
multimodal fusion research typically assumes static integration, not fully
incorporating key dynamic mechanisms found in the brain. Specifically, the
brain exhibits an inverse effectiveness phenomenon, wherein weaker unimodal
cues yield stronger multisensory integration benefits; conversely, when
individual modal cues are stronger, the effect of fusion is diminished. This
mechanism enables biological systems to achieve robust cognition even with
scarce or noisy perceptual cues. Inspired by this biological mechanism, we
explore the relationship between multimodal output and information from
individual modalities, proposing an inverse effectiveness driven multimodal
fusion (IEMF) strategy. By incorporating this strategy into neural networks, we
achieve more efficient integration with improved model performance and
computational efficiency, demonstrating up to 50% reduction in computational
cost across diverse fusion methods. We conduct experiments on audio-visual
classification, continual learning, and question answering tasks to validate
our method. Results consistently demonstrate that our method performs
excellently in these tasks. To verify universality and generalization, we also
conduct experiments on Artificial Neural Networks (ANN) and Spiking Neural
Networks (SNN), with results showing good adaptability to both network types.
Our research emphasizes the potential of incorporating biologically inspired
mechanisms into multimodal networks and provides promising directions for the
future development of multimodal artificial intelligence. The code is available
at https://github.com/Brain-Cog-Lab/IEMF.