Fragen in jeder Modalität: Eine umfassende Übersicht zur multimodalen retrieval-augmentierten Generierung
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation
February 12, 2025
Autoren: Mohammad Mahdi Abootorabi, Amirhosein Zobeiri, Mahdi Dehghani, Mohammadali Mohammadkhani, Bardia Mohammadi, Omid Ghahroodi, Mahdieh Soleymani Baghshah, Ehsaneddin Asgari
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) kämpfen mit Halluzinationen und veraltetem Wissen aufgrund ihrer Abhängigkeit von statischen Trainingsdaten. Retrieval-Augmented Generation (RAG) mildert diese Probleme durch die Integration externer dynamischer Informationen, was die faktische und aktuelle Fundierung verbessert. Jüngste Fortschritte im multimodalen Lernen haben zur Entwicklung von Multimodal RAG geführt, das mehrere Modalitäten wie Text, Bilder, Audio und Video einbezieht, um die generierten Ausgaben zu verbessern. Allerdings stellen cross-modale Ausrichtung und Schlussfolgerung einzigartige Herausforderungen für Multimodal RAG dar, die es von traditionellem unimodalem RAG unterscheiden. Diese Übersicht bietet eine strukturierte und umfassende Analyse von Multimodal RAG-Systemen, die Datensätze, Metriken, Benchmarks, Evaluierung, Methodologien und Innovationen in Retrieval, Fusion, Augmentierung und Generierung abdeckt. Wir untersuchen präzise Trainingsstrategien, Robustheitsverbesserungen und Verlustfunktionen, während wir auch die vielfältigen Multimodal RAG-Szenarien erkunden. Darüber hinaus diskutieren wir offene Herausforderungen und zukünftige Forschungsrichtungen, um Fortschritte in diesem sich entwickelnden Bereich zu unterstützen. Diese Übersicht legt den Grundstein für die Entwicklung leistungsfähigerer und zuverlässigerer KI-Systeme, die multimodale dynamische externe Wissensdatenbanken effektiv nutzen. Ressourcen sind verfügbar unter https://github.com/llm-lab-org/Multimodal-RAG-Survey.
English
Large Language Models (LLMs) struggle with hallucinations and outdated
knowledge due to their reliance on static training data. Retrieval-Augmented
Generation (RAG) mitigates these issues by integrating external dynamic
information enhancing factual and updated grounding. Recent advances in
multimodal learning have led to the development of Multimodal RAG,
incorporating multiple modalities such as text, images, audio, and video to
enhance the generated outputs. However, cross-modal alignment and reasoning
introduce unique challenges to Multimodal RAG, distinguishing it from
traditional unimodal RAG. This survey offers a structured and comprehensive
analysis of Multimodal RAG systems, covering datasets, metrics, benchmarks,
evaluation, methodologies, and innovations in retrieval, fusion, augmentation,
and generation. We precisely review training strategies, robustness
enhancements, and loss functions, while also exploring the diverse Multimodal
RAG scenarios. Furthermore, we discuss open challenges and future research
directions to support advancements in this evolving field. This survey lays the
foundation for developing more capable and reliable AI systems that effectively
leverage multimodal dynamic external knowledge bases. Resources are available
at https://github.com/llm-lab-org/Multimodal-RAG-Survey.Summary
AI-Generated Summary