ChatPaper.aiChatPaper

GeAR: Генерация с увеличением поиска

GeAR: Generation Augmented Retrieval

January 6, 2025
Авторы: Haoyu Liu, Shaohan Huang, Jianfeng Liu, Yuefeng Zhan, Hao Sun, Weiwei Deng, Feng Sun, Furu Wei, Qi Zhang
cs.AI

Аннотация

Техники извлечения документов являются основой для разработки информационных систем большого масштаба. Преобладающей методологией является построение би-кодировщика и вычисление семантической схожести. Однако такая скалярная схожесть затрудняет отражение достаточного количества информации и затрудняет наше понимание результатов извлечения. Кроме того, этот вычислительный процесс в основном подчеркивает глобальную семантику и игнорирует мелкозернистые семантические отношения между запросом и сложным текстом в документе. В данной статье мы предлагаем новый метод под названием Генеративно-усиленное извлечение (GeAR), который включает в себя хорошо спроектированные модули слияния и декодирования. Это позволяет GeAR генерировать соответствующий текст из документов на основе объединенного представления запроса и документа, обучаясь "фокусироваться" на мелкозернистой информации. Кроме того, при использовании в качестве извлекателя, GeAR не добавляет никакой вычислительной нагрузки по сравнению с би-кодировщиками. Для поддержки обучения новой структуры мы представили конвейер для эффективного синтеза высококачественных данных с использованием больших языковых моделей. GeAR демонстрирует конкурентоспособные показатели извлечения и локализации в различных сценариях и наборах данных. Более того, качественный анализ и результаты, полученные GeAR, предоставляют новые идеи для интерпретации результатов извлечения. Код, данные и модели будут опубликованы после завершения технического обзора для облегчения будущих исследований.
English
Document retrieval techniques form the foundation for the development of large-scale information systems. The prevailing methodology is to construct a bi-encoder and compute the semantic similarity. However, such scalar similarity is difficult to reflect enough information and impedes our comprehension of the retrieval results. In addition, this computational process mainly emphasizes the global semantics and ignores the fine-grained semantic relationship between the query and the complex text in the document. In this paper, we propose a new method called Generation Augmented Retrieval (GeAR) that incorporates well-designed fusion and decoding modules. This enables GeAR to generate the relevant text from documents based on the fused representation of the query and the document, thus learning to "focus on" the fine-grained information. Also when used as a retriever, GeAR does not add any computational burden over bi-encoders. To support the training of the new framework, we have introduced a pipeline to efficiently synthesize high-quality data by utilizing large language models. GeAR exhibits competitive retrieval and localization performance across diverse scenarios and datasets. Moreover, the qualitative analysis and the results generated by GeAR provide novel insights into the interpretation of retrieval results. The code, data, and models will be released after completing technical review to facilitate future research.

Summary

AI-Generated Summary

PDF232January 9, 2025