GeAR: Generación Aumentada de Recuperación
GeAR: Generation Augmented Retrieval
January 6, 2025
Autores: Haoyu Liu, Shaohan Huang, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Furu Wei, Qi Zhang
cs.AI
Resumen
Las técnicas de recuperación de documentos forman la base para el desarrollo de sistemas de información a gran escala. La metodología predominante consiste en construir un bi-codificador y calcular la similitud semántica. Sin embargo, esta similitud escalar es difícil de reflejar suficiente información y obstaculiza nuestra comprensión de los resultados de recuperación. Además, este proceso computacional enfatiza principalmente la semántica global e ignora la relación semántica detallada entre la consulta y el texto complejo en el documento. En este documento, proponemos un nuevo método llamado Recuperación Aumentada por Generación (GeAR) que incorpora módulos de fusión y decodificación bien diseñados. Esto permite que GeAR genere el texto relevante de los documentos basándose en la representación fusionada de la consulta y el documento, aprendiendo así a "enfocarse en" la información detallada. Además, al utilizarse como recuperador, GeAR no añade ninguna carga computacional sobre los bi-codificadores. Para respaldar el entrenamiento del nuevo marco de trabajo, hemos introducido un proceso para sintetizar eficientemente datos de alta calidad utilizando grandes modelos de lenguaje. GeAR muestra un rendimiento competitivo en la recuperación y localización en diversos escenarios y conjuntos de datos. Además, el análisis cualitativo y los resultados generados por GeAR proporcionan nuevas perspectivas sobre la interpretación de los resultados de recuperación. El código, los datos y los modelos se publicarán después de completar la revisión técnica para facilitar futuras investigaciones.
English
Document retrieval techniques form the foundation for the development of
large-scale information systems. The prevailing methodology is to construct a
bi-encoder and compute the semantic similarity. However, such scalar similarity
is difficult to reflect enough information and impedes our comprehension of the
retrieval results. In addition, this computational process mainly emphasizes
the global semantics and ignores the fine-grained semantic relationship between
the query and the complex text in the document. In this paper, we propose a new
method called Generation Augmented Retrieval
(GeAR) that incorporates well-designed fusion and decoding modules.
This enables GeAR to generate the relevant text from documents based on the
fused representation of the query and the document, thus learning to "focus on"
the fine-grained information. Also when used as a retriever, GeAR does not add
any computational burden over bi-encoders. To support the training of the new
framework, we have introduced a pipeline to efficiently synthesize high-quality
data by utilizing large language models. GeAR exhibits competitive retrieval
and localization performance across diverse scenarios and datasets. Moreover,
the qualitative analysis and the results generated by GeAR provide novel
insights into the interpretation of retrieval results. The code, data, and
models will be released after completing technical review to facilitate future
research.Summary
AI-Generated Summary