ChatPaper.aiChatPaper

Interrogez dans n'importe quelle modalité : Une étude approfondie sur la génération augmentée par la récupération multimodale

Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation

February 12, 2025
Auteurs: Mohammad Mahdi Abootorabi, Amirhosein Zobeiri, Mahdi Dehghani, Mohammadali Mohammadkhani, Bardia Mohammadi, Omid Ghahroodi, Mahdieh Soleymani Baghshah, Ehsaneddin Asgari
cs.AI

Résumé

Les modèles de langage de grande taille (LLMs) peinent avec les hallucinations et les connaissances obsolètes en raison de leur dépendance à des données d'entraînement statiques. La Génération Augmentée par Récupération (RAG) atténue ces problèmes en intégrant des informations externes dynamiques, améliorant ainsi l'ancrage factuel et actualisé. Les récentes avancées en apprentissage multimodal ont conduit au développement de la RAG Multimodale, incorporant plusieurs modalités telles que le texte, les images, l'audio et la vidéo pour enrichir les sorties générées. Cependant, l'alignement et le raisonnement intermodaux introduisent des défis uniques à la RAG Multimodale, la distinguant de la RAG unimodale traditionnelle. Cette étude propose une analyse structurée et complète des systèmes de RAG Multimodale, couvrant les jeux de données, les métriques, les benchmarks, l'évaluation, les méthodologies et les innovations en matière de récupération, fusion, augmentation et génération. Nous examinons précisément les stratégies d'entraînement, les améliorations de robustesse et les fonctions de perte, tout en explorant les divers scénarios de RAG Multimodale. De plus, nous discutons des défis ouverts et des directions de recherche futures pour soutenir les avancées dans ce domaine en évolution. Cette étude jette les bases pour le développement de systèmes d'IA plus performants et fiables, capables d'exploiter efficacement des bases de connaissances externes dynamiques et multimodales. Les ressources sont disponibles à l'adresse suivante : https://github.com/llm-lab-org/Multimodal-RAG-Survey.
English
Large Language Models (LLMs) struggle with hallucinations and outdated knowledge due to their reliance on static training data. Retrieval-Augmented Generation (RAG) mitigates these issues by integrating external dynamic information enhancing factual and updated grounding. Recent advances in multimodal learning have led to the development of Multimodal RAG, incorporating multiple modalities such as text, images, audio, and video to enhance the generated outputs. However, cross-modal alignment and reasoning introduce unique challenges to Multimodal RAG, distinguishing it from traditional unimodal RAG. This survey offers a structured and comprehensive analysis of Multimodal RAG systems, covering datasets, metrics, benchmarks, evaluation, methodologies, and innovations in retrieval, fusion, augmentation, and generation. We precisely review training strategies, robustness enhancements, and loss functions, while also exploring the diverse Multimodal RAG scenarios. Furthermore, we discuss open challenges and future research directions to support advancements in this evolving field. This survey lays the foundation for developing more capable and reliable AI systems that effectively leverage multimodal dynamic external knowledge bases. Resources are available at https://github.com/llm-lab-org/Multimodal-RAG-Survey.

Summary

AI-Generated Summary

PDF172February 18, 2025