UniversalRAG: Generación Aumentada por Recuperación sobre Múltiples Corpus con Modalidades y Granularidades Diversas
UniversalRAG: Retrieval-Augmented Generation over Multiple Corpora with Diverse Modalities and Granularities
April 29, 2025
Autores: Woongyeong Yeo, Kangsan Kim, Soyeong Jeong, Jinheon Baek, Sung Ju Hwang
cs.AI
Resumen
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) ha demostrado un potencial considerable para mejorar la precisión factual al fundamentar las respuestas del modelo con conocimiento externo relevante para las consultas. Sin embargo, la mayoría de los enfoques RAG existentes se limitan a un corpus exclusivamente textual, y aunque esfuerzos recientes han extendido RAG a otras modalidades, como imágenes y videos, estos suelen operar sobre un corpus específico de una sola modalidad. En contraste, las consultas del mundo real varían ampliamente en el tipo de conocimiento que requieren, lo cual no puede ser abordado por un único tipo de fuente de conocimiento. Para resolver esto, presentamos UniversalRAG, un novedoso marco RAG diseñado para recuperar e integrar conocimiento de fuentes heterogéneas con diversas modalidades y niveles de granularidad. Específicamente, motivados por la observación de que forzar todas las modalidades en un espacio de representación unificado derivado de un corpus combinado único causa una brecha de modalidad, donde la recuperación tiende a favorecer elementos de la misma modalidad que la consulta, proponemos un mecanismo de enrutamiento consciente de la modalidad que identifica dinámicamente el corpus específico de la modalidad más apropiado y realiza una recuperación dirigida dentro de él. Además, más allá de la modalidad, organizamos cada modalidad en múltiples niveles de granularidad, permitiendo una recuperación ajustada a la complejidad y alcance de la consulta. Validamos UniversalRAG en 8 benchmarks que abarcan múltiples modalidades, demostrando su superioridad sobre líneas base específicas de modalidad y unificadas.
English
Retrieval-Augmented Generation (RAG) has shown substantial promise in
improving factual accuracy by grounding model responses with external knowledge
relevant to queries. However, most existing RAG approaches are limited to a
text-only corpus, and while recent efforts have extended RAG to other
modalities such as images and videos, they typically operate over a single
modality-specific corpus. In contrast, real-world queries vary widely in the
type of knowledge they require, which a single type of knowledge source cannot
address. To address this, we introduce UniversalRAG, a novel RAG framework
designed to retrieve and integrate knowledge from heterogeneous sources with
diverse modalities and granularities. Specifically, motivated by the
observation that forcing all modalities into a unified representation space
derived from a single combined corpus causes a modality gap, where the
retrieval tends to favor items from the same modality as the query, we propose
a modality-aware routing mechanism that dynamically identifies the most
appropriate modality-specific corpus and performs targeted retrieval within it.
Also, beyond modality, we organize each modality into multiple granularity
levels, enabling fine-tuned retrieval tailored to the complexity and scope of
the query. We validate UniversalRAG on 8 benchmarks spanning multiple
modalities, showing its superiority over modality-specific and unified
baselines.Summary
AI-Generated Summary