GeAR : Génération Augmentée de Recherche
GeAR: Generation Augmented Retrieval
January 6, 2025
Auteurs: Haoyu Liu, Shaohan Huang, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Furu Wei, Qi Zhang
cs.AI
Résumé
Les techniques de récupération de documents forment la base du développement de systèmes d'information à grande échelle. La méthodologie prédominante consiste à construire un bi-codageur et à calculer la similarité sémantique. Cependant, une telle similarité scalaire est difficile à interpréter suffisamment et entrave notre compréhension des résultats de la récupération. De plus, ce processus de calcul met principalement l'accent sur la sémantique globale et ignore la relation sémantique détaillée entre la requête et le texte complexe dans le document. Dans cet article, nous proposons une nouvelle méthode appelée Récupération Augmentée par Génération (GeAR) qui intègre des modules de fusion et de décodage bien conçus. Cela permet à GeAR de générer le texte pertinent à partir des documents en se basant sur la représentation fusionnée de la requête et du document, apprenant ainsi à se "concentrer" sur les informations détaillées. De plus, lorsqu'il est utilisé comme outil de recherche, GeAR n'ajoute aucune charge computationnelle par rapport aux bi-codageurs. Pour soutenir l'entraînement du nouveau cadre, nous avons introduit un pipeline pour synthétiser efficacement des données de haute qualité en utilisant de grands modèles de langage. GeAR présente des performances de recherche et de localisation compétitives dans divers scénarios et ensembles de données. De plus, l'analyse qualitative et les résultats générés par GeAR offrent de nouvelles perspectives sur l'interprétation des résultats de recherche. Le code, les données et les modèles seront publiés après une revue technique complète pour faciliter les futures recherches.
English
Document retrieval techniques form the foundation for the development of
large-scale information systems. The prevailing methodology is to construct a
bi-encoder and compute the semantic similarity. However, such scalar similarity
is difficult to reflect enough information and impedes our comprehension of the
retrieval results. In addition, this computational process mainly emphasizes
the global semantics and ignores the fine-grained semantic relationship between
the query and the complex text in the document. In this paper, we propose a new
method called Generation Augmented Retrieval
(GeAR) that incorporates well-designed fusion and decoding modules.
This enables GeAR to generate the relevant text from documents based on the
fused representation of the query and the document, thus learning to "focus on"
the fine-grained information. Also when used as a retriever, GeAR does not add
any computational burden over bi-encoders. To support the training of the new
framework, we have introduced a pipeline to efficiently synthesize high-quality
data by utilizing large language models. GeAR exhibits competitive retrieval
and localization performance across diverse scenarios and datasets. Moreover,
the qualitative analysis and the results generated by GeAR provide novel
insights into the interpretation of retrieval results. The code, data, and
models will be released after completing technical review to facilitate future
research.Summary
AI-Generated Summary