LongRAG: Улучшение генерации с увеличением извлечения с длинными контекстными LLMs

Аннотация

В традиционной структуре RAG обычно используются короткие единицы поиска. Обычные поисковые модели, такие как DPR, обычно работают с параграфами из Википедии длиной в 100 слов. Такой подход заставляет поисковую модель искать информацию в большом корпусе данных, чтобы найти "иголку" - нужную единицу. В то же время читателям достаточно извлечь ответы из коротких найденных единиц. Такое дисбалансное проектирование с "тяжелой" поисковой моделью и "легким" читателем может привести к субоптимальной производительности. Для устранения этого дисбаланса мы предлагаем новую структуру LongRAG, состоящую из "длинной поисковой модели" и "длинного читателя". LongRAG обрабатывает весь контент Википедии в единицы по 4 тыс. токенов, что в 30 раз длиннее, чем ранее. Увеличив размер единицы, мы значительно сократили общее количество единиц с 22 млн до 700 тыс. Это существенно снизило нагрузку на поисковую модель и привело к выдающемуся результату в поиске: точность извлечения ответа@1=71% на NQ (прежде 52%) и точность извлечения ответа@2=72% (прежде 47%) на HotpotQA (полная Википедия). Затем мы передаем топ-k найденных единиц (примерно 30 тыс. токенов) существующей модели LLM с длинным контекстом для извлечения ответов без обучения. Без необходимости обучения LongRAG достигает точности EM 62.7% на NQ, что является лучшим известным результатом. LongRAG также достигает 64.3% на HotpotQA (полная Википедия), что соответствует модели SoTA. Наше исследование предлагает понимание будущего пути для объединения RAG с моделями LLM с длинным контекстом.

English

In traditional RAG framework, the basic retrieval units are normally short. The common retrievers like DPR normally work with 100-word Wikipedia paragraphs. Such a design forces the retriever to search over a large corpus to find the `needle' unit. In contrast, the readers only need to extract answers from the short retrieved units. Such an imbalanced `heavy' retriever and `light' reader design can lead to sub-optimal performance. In order to alleviate the imbalance, we propose a new framework LongRAG, consisting of a `long retriever' and a `long reader'. LongRAG processes the entire Wikipedia into 4K-token units, which is 30x longer than before. By increasing the unit size, we significantly reduce the total units from 22M to 700K. This significantly lowers the burden of retriever, which leads to a remarkable retrieval score: answer recall@1=71% on NQ (previously 52%) and answer recall@2=72% (previously 47%) on HotpotQA (full-wiki). Then we feed the top-k retrieved units (approx 30K tokens) to an existing long-context LLM to perform zero-shot answer extraction. Without requiring any training, LongRAG achieves an EM of 62.7% on NQ, which is the best known result. LongRAG also achieves 64.3% on HotpotQA (full-wiki), which is on par of the SoTA model. Our study offers insights into the future roadmap for combining RAG with long-context LLMs.

LongRAG: Улучшение генерации с увеличением извлечения с длинными контекстными LLMs

LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs

Аннотация

Support