GeAR: Generationsunterstützte Suche
GeAR: Generation Augmented Retrieval
January 6, 2025
Autoren: Haoyu Liu, Shaohan Huang, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Furu Wei, Qi Zhang
cs.AI
Zusammenfassung
Dokumentenabruftechniken bilden die Grundlage für die Entwicklung von Informationssystemen im großen Maßstab. Die vorherrschende Methodologie besteht darin, einen Bi-Encoder zu konstruieren und die semantische Ähnlichkeit zu berechnen. Allerdings ist eine solche skalare Ähnlichkeit schwer, ausreichend Informationen widerzuspiegeln und behindert unser Verständnis der Abrufergebnisse. Darüber hinaus betont dieser Berechnungsprozess hauptsächlich die globalen Semantiken und ignoriert die feinkörnige semantische Beziehung zwischen der Abfrage und dem komplexen Text im Dokument. In diesem Paper schlagen wir eine neue Methode namens Generation Augmented Retrieval (GeAR) vor, die gut durchdachte Fusion und Decodierungs-Module integriert. Dies ermöglicht es GeAR, den relevanten Text aus Dokumenten auf der Grundlage der fusionierten Repräsentation der Abfrage und des Dokuments zu generieren und somit das "Fokussieren" auf die feinkörnigen Informationen zu erlernen. Auch wenn GeAR als Abrufsystem verwendet wird, fügt es keine zusätzliche Rechenlast zu den Bi-Encodern hinzu. Zur Unterstützung des Trainings des neuen Frameworks haben wir eine Pipeline eingeführt, um hochwertige Daten effizient zu synthetisieren, indem wir große Sprachmodelle nutzen. GeAR zeigt wettbewerbsfähige Abruf- und Lokalisierungsleistung in verschiedenen Szenarien und Datensätzen. Darüber hinaus bieten die qualitative Analyse und die von GeAR generierten Ergebnisse neue Erkenntnisse zur Interpretation der Abrufergebnisse. Der Code, die Daten und die Modelle werden nach Abschluss der technischen Überprüfung veröffentlicht, um zukünftige Forschung zu erleichtern.
English
Document retrieval techniques form the foundation for the development of
large-scale information systems. The prevailing methodology is to construct a
bi-encoder and compute the semantic similarity. However, such scalar similarity
is difficult to reflect enough information and impedes our comprehension of the
retrieval results. In addition, this computational process mainly emphasizes
the global semantics and ignores the fine-grained semantic relationship between
the query and the complex text in the document. In this paper, we propose a new
method called Generation Augmented Retrieval
(GeAR) that incorporates well-designed fusion and decoding modules.
This enables GeAR to generate the relevant text from documents based on the
fused representation of the query and the document, thus learning to "focus on"
the fine-grained information. Also when used as a retriever, GeAR does not add
any computational burden over bi-encoders. To support the training of the new
framework, we have introduced a pipeline to efficiently synthesize high-quality
data by utilizing large language models. GeAR exhibits competitive retrieval
and localization performance across diverse scenarios and datasets. Moreover,
the qualitative analysis and the results generated by GeAR provide novel
insights into the interpretation of retrieval results. The code, data, and
models will be released after completing technical review to facilitate future
research.Summary
AI-Generated Summary