Внедрение механизмов, вдохновленных работой мозга, для мультимодального обучения в искусственном интеллекте
Incorporating brain-inspired mechanisms for multimodal learning in artificial intelligence
May 15, 2025
Авторы: Xiang He, Dongcheng Zhao, Yang Li, Qingqun Kong, Xin Yang, Yi Zeng
cs.AI
Аннотация
Мультимодальное обучение расширяет перцептивные возможности когнитивных систем за счет интеграции информации из различных сенсорных модальностей. Однако существующие исследования мультимодального слияния обычно предполагают статическую интеграцию, не полностью учитывая ключевые динамические механизмы, обнаруженные в мозге. В частности, мозг демонстрирует феномен обратной эффективности, при котором более слабые одномодальные сигналы приводят к более сильным преимуществам мультисенсорной интеграции; напротив, когда сигналы отдельных модальностей сильнее, эффект слияния уменьшается. Этот механизм позволяет биологическим системам достигать устойчивого познания даже при скудных или зашумленных перцептивных сигналах. Вдохновленные этим биологическим механизмом, мы исследуем взаимосвязь между мультимодальным выводом и информацией из отдельных модальностей, предлагая стратегию мультимодального слияния, основанную на обратной эффективности (IEMF). Внедряя эту стратегию в нейронные сети, мы достигаем более эффективной интеграции с улучшенной производительностью модели и вычислительной эффективностью, демонстрируя до 50% снижения вычислительных затрат для различных методов слияния. Мы проводим эксперименты по аудиовизуальной классификации, непрерывному обучению и задачам ответов на вопросы, чтобы подтвердить эффективность нашего метода. Результаты последовательно показывают, что наш метод отлично справляется с этими задачами. Для проверки универсальности и обобщаемости мы также проводим эксперименты на искусственных нейронных сетях (ANN) и спайковых нейронных сетях (SNN), результаты которых демонстрируют хорошую адаптируемость к обоим типам сетей. Наше исследование подчеркивает потенциал внедрения биологически вдохновленных механизмов в мультимодальные сети и предлагает перспективные направления для будущего развития мультимодального искусственного интеллекта. Код доступен по адресу https://github.com/Brain-Cog-Lab/IEMF.
English
Multimodal learning enhances the perceptual capabilities of cognitive systems
by integrating information from different sensory modalities. However, existing
multimodal fusion research typically assumes static integration, not fully
incorporating key dynamic mechanisms found in the brain. Specifically, the
brain exhibits an inverse effectiveness phenomenon, wherein weaker unimodal
cues yield stronger multisensory integration benefits; conversely, when
individual modal cues are stronger, the effect of fusion is diminished. This
mechanism enables biological systems to achieve robust cognition even with
scarce or noisy perceptual cues. Inspired by this biological mechanism, we
explore the relationship between multimodal output and information from
individual modalities, proposing an inverse effectiveness driven multimodal
fusion (IEMF) strategy. By incorporating this strategy into neural networks, we
achieve more efficient integration with improved model performance and
computational efficiency, demonstrating up to 50% reduction in computational
cost across diverse fusion methods. We conduct experiments on audio-visual
classification, continual learning, and question answering tasks to validate
our method. Results consistently demonstrate that our method performs
excellently in these tasks. To verify universality and generalization, we also
conduct experiments on Artificial Neural Networks (ANN) and Spiking Neural
Networks (SNN), with results showing good adaptability to both network types.
Our research emphasizes the potential of incorporating biologically inspired
mechanisms into multimodal networks and provides promising directions for the
future development of multimodal artificial intelligence. The code is available
at https://github.com/Brain-Cog-Lab/IEMF.Summary
AI-Generated Summary