BABILong: Testando os Limites dos LLMs com Raciocínio em Contextos Longos Raciocínio-em-um-Palheiro
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack
June 14, 2024
Autores: Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev
cs.AI
Resumo
Nos últimos anos, os tamanhos de contexto de entrada dos grandes modelos de linguagem (LLMs) aumentaram drasticamente. No entanto, os métodos de avaliação existentes não acompanharam esse avanço, falhando em avaliar de forma abrangente a eficiência dos modelos no manuseio de contextos longos. Para preencher essa lacuna, introduzimos o benchmark BABILong, projetado para testar a capacidade dos modelos de linguagem de raciocinar sobre fatos distribuídos em documentos extremamente longos. O BABILong inclui um conjunto diversificado de 20 tarefas de raciocínio, incluindo encadeamento de fatos, indução simples, dedução, contagem e manipulação de listas/conjuntos. Essas tarefas são desafiadoras por si só e ainda mais exigentes quando os fatos necessários estão espalhados em textos naturais longos. Nossas avaliações mostram que os LLMs populares utilizam efetivamente apenas 10-20% do contexto, e seu desempenho cai drasticamente com o aumento da complexidade do raciocínio. Entre as alternativas ao raciocínio em contexto, os métodos de Geração Aumentada por Recuperação (Retrieval-Augmented Generation) alcançam uma modesta precisão de 60% na resposta a perguntas de fato único, independentemente do comprimento do contexto. Entre os métodos de extensão de contexto, o maior desempenho é demonstrado por transformadores com memória recorrente, permitindo o processamento de comprimentos de até 11 milhões de tokens. O benchmark BABILong é extensível a qualquer comprimento para apoiar a avaliação de novos modelos com capacidades aumentadas, e fornecemos divisões de até 1 milhão de tokens.
English
In recent years, the input context sizes of large language models (LLMs) have
increased dramatically. However, existing evaluation methods have not kept
pace, failing to comprehensively assess the efficiency of models in handling
long contexts. To bridge this gap, we introduce the BABILong benchmark,
designed to test language models' ability to reason across facts distributed in
extremely long documents. BABILong includes a diverse set of 20 reasoning
tasks, including fact chaining, simple induction, deduction, counting, and
handling lists/sets. These tasks are challenging on their own, and even more
demanding when the required facts are scattered across long natural text. Our
evaluations show that popular LLMs effectively utilize only 10-20\% of the
context and their performance declines sharply with increased reasoning
complexity. Among alternatives to in-context reasoning, Retrieval-Augmented
Generation methods achieve a modest 60\% accuracy on single-fact question
answering, independent of context length. Among context extension methods, the
highest performance is demonstrated by recurrent memory transformers, enabling
the processing of lengths up to 11 million tokens. The BABILong benchmark is
extendable to any length to support the evaluation of new upcoming models with
increased capabilities, and we provide splits up to 1 million token lengths.