UniversalRAG : Génération Augmentée par Récupération sur Plusieurs Corpus avec des Modalités et Granularités Diverses
UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities
April 29, 2025
Auteurs: Woongyeong Yeo, Kangsan Kim, Soyeong Jeong, Jinheon Baek, Sung Ju Hwang
cs.AI
Résumé
La Génération Augmentée par Récupération (RAG) a démontré un potentiel significatif pour améliorer la précision factuelle en ancrant les réponses des modèles avec des connaissances externes pertinentes aux requêtes. Cependant, la plupart des approches RAG existantes se limitent à un corpus textuel uniquement, et bien que des efforts récents aient étendu RAG à d'autres modalités telles que les images et les vidéos, elles opèrent généralement sur un corpus spécifique à une seule modalité. En revanche, les requêtes du monde réel varient considérablement dans le type de connaissances qu'elles nécessitent, ce qu'une seule source de connaissances ne peut pas satisfaire. Pour résoudre ce problème, nous introduisons UniversalRAG, un nouveau cadre RAG conçu pour récupérer et intégrer des connaissances provenant de sources hétérogènes avec des modalités et des granularités diverses. Plus précisément, motivés par l'observation que forcer toutes les modalités dans un espace de représentation unifié dérivé d'un corpus combiné unique crée un écart de modalité, où la récupération tend à favoriser les éléments de la même modalité que la requête, nous proposons un mécanisme de routage conscient des modalités qui identifie dynamiquement le corpus spécifique à la modalité la plus appropriée et effectue une récupération ciblée dans celui-ci. De plus, au-delà des modalités, nous organisons chaque modalité en plusieurs niveaux de granularité, permettant une récupération fine adaptée à la complexité et à la portée de la requête. Nous validons UniversalRAG sur 8 benchmarks couvrant plusieurs modalités, démontrant sa supériorité par rapport aux bases de référence spécifiques à une modalité et unifiées.
English
Retrieval-Augmented Generation (RAG) has shown substantial promise in
improving factual accuracy by grounding model responses with external knowledge
relevant to queries. However, most existing RAG approaches are limited to a
text-only corpus, and while recent efforts have extended RAG to other
modalities such as images and videos, they typically operate over a single
modality-specific corpus. In contrast, real-world queries vary widely in the
type of knowledge they require, which a single type of knowledge source cannot
address. To address this, we introduce UniversalRAG, a novel RAG framework
designed to retrieve and integrate knowledge from heterogeneous sources with
diverse modalities and granularities. Specifically, motivated by the
observation that forcing all modalities into a unified representation space
derived from a single combined corpus causes a modality gap, where the
retrieval tends to favor items from the same modality as the query, we propose
a modality-aware routing mechanism that dynamically identifies the most
appropriate modality-specific corpus and performs targeted retrieval within it.
Also, beyond modality, we organize each modality into multiple granularity
levels, enabling fine-tuned retrieval tailored to the complexity and scope of
the query. We validate UniversalRAG on 8 benchmarks spanning multiple
modalities, showing its superiority over modality-specific and unified
baselines.Summary
AI-Generated Summary