Моделирование языка с длинным контекстом с использованием самовосстановления
Long-range Language Modeling with Self-retrieval
June 23, 2023
Авторы: Ohad Rubin, Jonathan Berant
cs.AI
Аннотация
Модели языка с расширенным поиском (retrieval-augmented language models, LMs) в последнее время привлекают значительное внимание. Однако обычно поисковый механизм не обучается совместно как неотъемлемая часть модели языка, а добавляется к уже предобученной LM, что ограничивает способность модели и поискового механизма адаптироваться друг к другу. В данной работе мы предлагаем Retrieval-Pretrained Transformer (RPT) — архитектуру и процедуру обучения для совместного обучения модели языка с расширенным поиском с нуля для задачи моделирования длинных текстов. Для недавно сгенерированного фрагмента текста в длинном документе модель языка вычисляет представления запросов, которые затем используются для поиска предыдущих фрагментов документа, расположенных потенциально за десятки тысяч токенов до текущего. Информация из найденных фрагментов интегрируется в представления модели языка для предсказания следующего целевого фрагмента. Мы обучаем поисковый компонент с семантической целью, где задача состоит в поиске фрагментов, которые увеличивают вероятность следующего фрагмента согласно эталонной модели языка. Мы оцениваем RPT на четырех задачах моделирования языка с длинным контекстом, охватывающих книги, код и математические тексты, и показываем, что RPT улучшает качество поиска и, как следствие, снижает perplexity по сравнению с сильными базовыми моделями.
English
Retrieval-augmented language models (LMs) have received much attention
recently. However, typically the retriever is not trained jointly as a native
component of the LM, but added to an already-pretrained LM, which limits the
ability of the LM and the retriever to adapt to one another. In this work, we
propose the Retrieval-Pretrained Transformer (RPT), an architecture and
training procedure for jointly training a retrieval-augmented LM from scratch
for the task of modeling long texts. Given a recently generated text chunk in a
long document, the LM computes query representations, which are then used to
retrieve earlier chunks in the document, located potentially tens of thousands
of tokens before. Information from retrieved chunks is fused into the LM
representations to predict the next target chunk. We train the retriever
component with a semantic objective, where the goal is to retrieve chunks that
increase the probability of the next chunk, according to a reference LM. We
evaluate RPT on four long-range language modeling tasks, spanning books, code,
and mathematical writing, and demonstrate that RPT improves retrieval quality
and subsequently perplexity across the board compared to strong baselines.