ChatPaper.aiChatPaper

Потерянные в середине: как языковые модели используют длинные контексты

Lost in the Middle: How Language Models Use Long Contexts

July 6, 2023
Авторы: Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua, Fabio Petroni, Percy Liang
cs.AI

Аннотация

Хотя современные языковые модели способны обрабатывать длинные контексты на входе, относительно мало известно о том, насколько эффективно они используют такие расширенные контексты. Мы анализируем производительность языковых моделей на двух задачах, требующих идентификации релевантной информации в пределах входных контекстов: многодокументное ответы на вопросы и извлечение ключ-значение. Мы обнаруживаем, что производительность часто оказывается наивысшей, когда релевантная информация находится в начале или конце входного контекста, и значительно снижается, когда модели должны обращаться к релевантной информации в середине длинных контекстов. Кроме того, производительность существенно уменьшается с увеличением длины входного контекста, даже для моделей, специально разработанных для работы с длинными контекстами. Наш анализ позволяет лучше понять, как языковые модели используют свои входные контексты, и предлагает новые протоколы оценки для будущих моделей, работающих с длинными контекстами.
English
While recent language models have the ability to take long contexts as input, relatively little is known about how well the language models use longer context. We analyze language model performance on two tasks that require identifying relevant information within their input contexts: multi-document question answering and key-value retrieval. We find that performance is often highest when relevant information occurs at the beginning or end of the input context, and significantly degrades when models must access relevant information in the middle of long contexts. Furthermore, performance substantially decreases as the input context grows longer, even for explicitly long-context models. Our analysis provides a better understanding of how language models use their input context and provides new evaluation protocols for future long-context models.
PDF403December 15, 2024