LongRAG: Улучшение генерации с увеличением извлечения с длинными контекстными LLMsLongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs
В традиционной структуре RAG обычно используются короткие единицы поиска. Обычные поисковые модели, такие как DPR, обычно работают с параграфами из Википедии длиной в 100 слов. Такой подход заставляет поисковую модель искать информацию в большом корпусе данных, чтобы найти "иголку" - нужную единицу. В то же время читателям достаточно извлечь ответы из коротких найденных единиц. Такое дисбалансное проектирование с "тяжелой" поисковой моделью и "легким" читателем может привести к субоптимальной производительности. Для устранения этого дисбаланса мы предлагаем новую структуру LongRAG, состоящую из "длинной поисковой модели" и "длинного читателя". LongRAG обрабатывает весь контент Википедии в единицы по 4 тыс. токенов, что в 30 раз длиннее, чем ранее. Увеличив размер единицы, мы значительно сократили общее количество единиц с 22 млн до 700 тыс. Это существенно снизило нагрузку на поисковую модель и привело к выдающемуся результату в поиске: точность извлечения ответа@1=71% на NQ (прежде 52%) и точность извлечения ответа@2=72% (прежде 47%) на HotpotQA (полная Википедия). Затем мы передаем топ-k найденных единиц (примерно 30 тыс. токенов) существующей модели LLM с длинным контекстом для извлечения ответов без обучения. Без необходимости обучения LongRAG достигает точности EM 62.7% на NQ, что является лучшим известным результатом. LongRAG также достигает 64.3% на HotpotQA (полная Википедия), что соответствует модели SoTA. Наше исследование предлагает понимание будущего пути для объединения RAG с моделями LLM с длинным контекстом.