Incorporar mecanismos inspirados en el cerebro para el aprendizaje multimodal en la inteligencia artificial
Incorporating brain-inspired mechanisms for multimodal learning in artificial intelligence
May 15, 2025
Autores: Xiang He, Dongcheng Zhao, Yang Li, Qingqun Kong, Xin Yang, Yi Zeng
cs.AI
Resumen
El aprendizaje multimodal mejora las capacidades perceptivas de los sistemas cognitivos mediante la integración de información proveniente de diferentes modalidades sensoriales. Sin embargo, la investigación existente sobre fusión multimodal generalmente asume una integración estática, sin incorporar plenamente los mecanismos dinámicos clave presentes en el cerebro. Específicamente, el cerebro exhibe un fenómeno de efectividad inversa, en el que señales unimodales más débiles generan mayores beneficios en la integración multisensorial; por el contrario, cuando las señales individuales de cada modalidad son más fuertes, el efecto de la fusión se reduce. Este mecanismo permite a los sistemas biológicos lograr una cognición robusta incluso con señales perceptivas escasas o ruidosas. Inspirados por este mecanismo biológico, exploramos la relación entre la salida multimodal y la información de las modalidades individuales, proponiendo una estrategia de fusión multimodal basada en la efectividad inversa (IEMF, por sus siglas en inglés). Al incorporar esta estrategia en redes neuronales, logramos una integración más eficiente con un mejor rendimiento del modelo y una mayor eficiencia computacional, demostrando una reducción de hasta el 50% en el costo computacional en diversos métodos de fusión. Realizamos experimentos en tareas de clasificación audiovisual, aprendizaje continuo y respuesta a preguntas para validar nuestro método. Los resultados demuestran consistentemente que nuestro método tiene un desempeño excelente en estas tareas. Para verificar la universalidad y generalización, también realizamos experimentos en Redes Neuronales Artificiales (ANN) y Redes Neuronales de Pulsos (SNN), mostrando los resultados una buena adaptabilidad a ambos tipos de redes. Nuestra investigación enfatiza el potencial de incorporar mecanismos inspirados en la biología en redes multimodales y proporciona direcciones prometedoras para el desarrollo futuro de la inteligencia artificial multimodal. El código está disponible en https://github.com/Brain-Cog-Lab/IEMF.
English
Multimodal learning enhances the perceptual capabilities of cognitive systems
by integrating information from different sensory modalities. However, existing
multimodal fusion research typically assumes static integration, not fully
incorporating key dynamic mechanisms found in the brain. Specifically, the
brain exhibits an inverse effectiveness phenomenon, wherein weaker unimodal
cues yield stronger multisensory integration benefits; conversely, when
individual modal cues are stronger, the effect of fusion is diminished. This
mechanism enables biological systems to achieve robust cognition even with
scarce or noisy perceptual cues. Inspired by this biological mechanism, we
explore the relationship between multimodal output and information from
individual modalities, proposing an inverse effectiveness driven multimodal
fusion (IEMF) strategy. By incorporating this strategy into neural networks, we
achieve more efficient integration with improved model performance and
computational efficiency, demonstrating up to 50% reduction in computational
cost across diverse fusion methods. We conduct experiments on audio-visual
classification, continual learning, and question answering tasks to validate
our method. Results consistently demonstrate that our method performs
excellently in these tasks. To verify universality and generalization, we also
conduct experiments on Artificial Neural Networks (ANN) and Spiking Neural
Networks (SNN), with results showing good adaptability to both network types.
Our research emphasizes the potential of incorporating biologically inspired
mechanisms into multimodal networks and provides promising directions for the
future development of multimodal artificial intelligence. The code is available
at https://github.com/Brain-Cog-Lab/IEMF.Summary
AI-Generated Summary