BABILong: Testare i limiti degli LLM con il ragionamento in contesti lunghi Ragionamento-in-un-pagliaio
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack
June 14, 2024
Autori: Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev
cs.AI
Abstract
Negli ultimi anni, le dimensioni del contesto di input dei grandi modelli linguistici (LLM) sono aumentate in modo significativo. Tuttavia, i metodi di valutazione esistenti non hanno tenuto il passo, fallendo nel valutare in modo completo l'efficienza dei modelli nel gestire contesti lunghi. Per colmare questa lacuna, introduciamo il benchmark BABILong, progettato per testare la capacità dei modelli linguistici di ragionare su fatti distribuiti in documenti estremamente lunghi. BABILong include un insieme diversificato di 20 task di ragionamento, tra cui concatenazione di fatti, induzione semplice, deduzione, conteggio e gestione di liste/insiemi. Questi task sono già di per sé impegnativi e diventano ancora più complessi quando i fatti necessari sono sparsi in lunghi testi naturali. Le nostre valutazioni mostrano che i LLM più diffusi utilizzano efficacemente solo il 10-20% del contesto e le loro prestazioni diminuiscono drasticamente con l'aumentare della complessità del ragionamento. Tra le alternative al ragionamento in-context, i metodi di Generazione Aumentata con Recupero (Retrieval-Augmented Generation) raggiungono una modesta accuratezza del 60% nel rispondere a domande su singoli fatti, indipendentemente dalla lunghezza del contesto. Tra i metodi di estensione del contesto, le prestazioni più elevate sono dimostrate dai trasformatori con memoria ricorrente, che consentono di elaborare lunghezze fino a 11 milioni di token. Il benchmark BABILong è estendibile a qualsiasi lunghezza per supportare la valutazione di nuovi modelli con capacità aumentate, e forniamo suddivisioni fino a lunghezze di 1 milione di token.
English
In recent years, the input context sizes of large language models (LLMs) have
increased dramatically. However, existing evaluation methods have not kept
pace, failing to comprehensively assess the efficiency of models in handling
long contexts. To bridge this gap, we introduce the BABILong benchmark,
designed to test language models' ability to reason across facts distributed in
extremely long documents. BABILong includes a diverse set of 20 reasoning
tasks, including fact chaining, simple induction, deduction, counting, and
handling lists/sets. These tasks are challenging on their own, and even more
demanding when the required facts are scattered across long natural text. Our
evaluations show that popular LLMs effectively utilize only 10-20\% of the
context and their performance declines sharply with increased reasoning
complexity. Among alternatives to in-context reasoning, Retrieval-Augmented
Generation methods achieve a modest 60\% accuracy on single-fact question
answering, independent of context length. Among context extension methods, the
highest performance is demonstrated by recurrent memory transformers, enabling
the processing of lengths up to 11 million tokens. The BABILong benchmark is
extendable to any length to support the evaluation of new upcoming models with
increased capabilities, and we provide splits up to 1 million token lengths.