ChatPaper.aiChatPaper

BABILong: Тестирование пределов LLM с длинным контекстом Рассуждения в стоге сена

BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack

June 14, 2024
Авторы: Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev
cs.AI

Аннотация

В последние годы размеры входного контекста больших языковых моделей (LLM) значительно увеличились. Однако существующие методы оценки не успевают за этими изменениями, не обеспечивая всестороннюю оценку эффективности моделей в работе с длинными контекстами. Для устранения этого разрыва мы представляем бенчмарк BABILong, разработанный для проверки способности языковых моделей рассуждать по фактам, распределенным в чрезвычайно длинных документах. BABILong включает в себя разнообразный набор из 20 задач рассуждения, включая цепочки фактов, простую индукцию, дедукцию, подсчет, а также работу с списками/множествами. Эти задачи уже по себе вызывают трудности, а становятся еще более сложными, когда необходимые факты разбросаны по длинным естественным текстам. Наши оценки показывают, что популярные LLM эффективно используют лишь 10-20\% контекста, и их производительность резко снижается с увеличением сложности рассуждений. Среди альтернативных методов работы с контекстом методы генерации с извлечением показывают скромную точность 60\% при ответе на вопросы с одним фактом, независимо от длины контекста. Среди методов расширения контекста наивысшую производительность демонстрируют рекуррентные трансформеры памяти, позволяющие обрабатывать длины до 11 миллионов токенов. Бенчмарк BABILong расширяем до любой длины для поддержки оценки новых моделей с увеличенными возможностями, и мы предоставляем разбивки до 1 миллиона токенов.
English
In recent years, the input context sizes of large language models (LLMs) have increased dramatically. However, existing evaluation methods have not kept pace, failing to comprehensively assess the efficiency of models in handling long contexts. To bridge this gap, we introduce the BABILong benchmark, designed to test language models' ability to reason across facts distributed in extremely long documents. BABILong includes a diverse set of 20 reasoning tasks, including fact chaining, simple induction, deduction, counting, and handling lists/sets. These tasks are challenging on their own, and even more demanding when the required facts are scattered across long natural text. Our evaluations show that popular LLMs effectively utilize only 10-20\% of the context and their performance declines sharply with increased reasoning complexity. Among alternatives to in-context reasoning, Retrieval-Augmented Generation methods achieve a modest 60\% accuracy on single-fact question answering, independent of context length. Among context extension methods, the highest performance is demonstrated by recurrent memory transformers, enabling the processing of lengths up to 11 million tokens. The BABILong benchmark is extendable to any length to support the evaluation of new upcoming models with increased capabilities, and we provide splits up to 1 million token lengths.

Summary

AI-Generated Summary

PDF514December 6, 2024