Incorporando mecanismos inspirados no cérebro para aprendizado multimodal em inteligência artificial
Incorporating brain-inspired mechanisms for multimodal learning in artificial intelligence
May 15, 2025
Autores: Xiang He, Dongcheng Zhao, Yang Li, Qingqun Kong, Xin Yang, Yi Zeng
cs.AI
Resumo
A aprendizagem multimodal aprimora as capacidades perceptivas de sistemas cognitivos ao integrar informações de diferentes modalidades sensoriais. No entanto, pesquisas existentes sobre fusão multimodal geralmente assumem uma integração estática, não incorporando plenamente mecanismos dinâmicos essenciais encontrados no cérebro. Especificamente, o cérebro exibe um fenômeno de efetividade inversa, no qual pistas unimodais mais fracas resultam em benefícios mais significativos de integração multissensorial; inversamente, quando as pistas modais individuais são mais fortes, o efeito da fusão é reduzido. Esse mecanismo permite que sistemas biológicos alcancem cognição robusta mesmo com pistas perceptivas escassas ou ruidosas. Inspirados por esse mecanismo biológico, exploramos a relação entre a saída multimodal e as informações de modalidades individuais, propondo uma estratégia de fusão multimodal guiada por efetividade inversa (IEMF, na sigla em inglês). Ao incorporar essa estratégia em redes neurais, alcançamos uma integração mais eficiente com melhoria no desempenho do modelo e na eficiência computacional, demonstrando uma redução de até 50% nos custos computacionais em diversos métodos de fusão. Realizamos experimentos em tarefas de classificação áudio-visual, aprendizado contínuo e resposta a perguntas para validar nosso método. Os resultados demonstram consistentemente que nosso método tem excelente desempenho nessas tarefas. Para verificar a universalidade e a generalização, também conduzimos experimentos em Redes Neurais Artificiais (ANN) e Redes Neurais Espinhais (SNN), com resultados mostrando boa adaptabilidade a ambos os tipos de rede. Nossa pesquisa enfatiza o potencial de incorporar mecanismos inspirados na biologia em redes multimodais e fornece direções promissoras para o desenvolvimento futuro da inteligência artificial multimodal. O código está disponível em https://github.com/Brain-Cog-Lab/IEMF.
English
Multimodal learning enhances the perceptual capabilities of cognitive systems
by integrating information from different sensory modalities. However, existing
multimodal fusion research typically assumes static integration, not fully
incorporating key dynamic mechanisms found in the brain. Specifically, the
brain exhibits an inverse effectiveness phenomenon, wherein weaker unimodal
cues yield stronger multisensory integration benefits; conversely, when
individual modal cues are stronger, the effect of fusion is diminished. This
mechanism enables biological systems to achieve robust cognition even with
scarce or noisy perceptual cues. Inspired by this biological mechanism, we
explore the relationship between multimodal output and information from
individual modalities, proposing an inverse effectiveness driven multimodal
fusion (IEMF) strategy. By incorporating this strategy into neural networks, we
achieve more efficient integration with improved model performance and
computational efficiency, demonstrating up to 50% reduction in computational
cost across diverse fusion methods. We conduct experiments on audio-visual
classification, continual learning, and question answering tasks to validate
our method. Results consistently demonstrate that our method performs
excellently in these tasks. To verify universality and generalization, we also
conduct experiments on Artificial Neural Networks (ANN) and Spiking Neural
Networks (SNN), with results showing good adaptability to both network types.
Our research emphasizes the potential of incorporating biologically inspired
mechanisms into multimodal networks and provides promising directions for the
future development of multimodal artificial intelligence. The code is available
at https://github.com/Brain-Cog-Lab/IEMF.