GeAR: Generatie Augmented Retrieval
GeAR: Generation Augmented Retrieval
January 6, 2025
Auteurs: Haoyu Liu, Shaohan Huang, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Furu Wei, Qi Zhang
cs.AI
Samenvatting
Document retrieval technieken vormen de basis voor de ontwikkeling van grootschalige informatiesystemen. De gangbare methodologie is om een bi-encoder te construeren en de semantische gelijkenis te berekenen. Echter, een dergelijke scalaire gelijkenis is moeilijk om voldoende informatie weer te geven en belemmert ons begrip van de ophaalresultaten. Bovendien benadrukt dit rekenproces voornamelijk de globale semantiek en negeert het de fijnmazige semantische relatie tussen de query en de complexe tekst in het document. In dit artikel stellen we een nieuwe methode voor genaamd Generatie Verrijkte Ophaling (GeAR) die goed ontworpen fusie- en decoderingsmodules integreert. Dit stelt GeAR in staat om relevante tekst uit documenten te genereren op basis van de gefuseerde representatie van de query en het document, waardoor het leert zich te "richten op" de fijnmazige informatie. Ook wanneer GeAR wordt gebruikt als ophaler, voegt het geen extra rekenlast toe ten opzichte van bi-encoders. Om de training van het nieuwe raamwerk te ondersteunen, hebben we een pijplijn geïntroduceerd om efficiënt hoogwaardige gegevens te synthetiseren door gebruik te maken van grote taalmodellen. GeAR vertoont competitieve ophaal- en lokaliseringsprestaties in diverse scenario's en datasets. Bovendien bieden de kwalitatieve analyse en de resultaten gegenereerd door GeAR nieuwe inzichten in de interpretatie van ophaalresultaten. De code, gegevens en modellen zullen worden vrijgegeven na voltooiing van de technische beoordeling om toekomstig onderzoek te vergemakkelijken.
English
Document retrieval techniques form the foundation for the development of
large-scale information systems. The prevailing methodology is to construct a
bi-encoder and compute the semantic similarity. However, such scalar similarity
is difficult to reflect enough information and impedes our comprehension of the
retrieval results. In addition, this computational process mainly emphasizes
the global semantics and ignores the fine-grained semantic relationship between
the query and the complex text in the document. In this paper, we propose a new
method called Generation Augmented Retrieval
(GeAR) that incorporates well-designed fusion and decoding modules.
This enables GeAR to generate the relevant text from documents based on the
fused representation of the query and the document, thus learning to "focus on"
the fine-grained information. Also when used as a retriever, GeAR does not add
any computational burden over bi-encoders. To support the training of the new
framework, we have introduced a pipeline to efficiently synthesize high-quality
data by utilizing large language models. GeAR exhibits competitive retrieval
and localization performance across diverse scenarios and datasets. Moreover,
the qualitative analysis and the results generated by GeAR provide novel
insights into the interpretation of retrieval results. The code, data, and
models will be released after completing technical review to facilitate future
research.Summary
AI-Generated Summary