BABILong: Testare i limiti degli LLM con il ragionamento in contesti lunghi Ragionamento-in-un-pagliaio

Abstract

Negli ultimi anni, le dimensioni del contesto di input dei grandi modelli linguistici (LLM) sono aumentate in modo significativo. Tuttavia, i metodi di valutazione esistenti non hanno tenuto il passo, fallendo nel valutare in modo completo l'efficienza dei modelli nel gestire contesti lunghi. Per colmare questa lacuna, introduciamo il benchmark BABILong, progettato per testare la capacità dei modelli linguistici di ragionare su fatti distribuiti in documenti estremamente lunghi. BABILong include un insieme diversificato di 20 task di ragionamento, tra cui concatenazione di fatti, induzione semplice, deduzione, conteggio e gestione di liste/insiemi. Questi task sono già di per sé impegnativi e diventano ancora più complessi quando i fatti necessari sono sparsi in lunghi testi naturali. Le nostre valutazioni mostrano che i LLM più diffusi utilizzano efficacemente solo il 10-20% del contesto e le loro prestazioni diminuiscono drasticamente con l'aumentare della complessità del ragionamento. Tra le alternative al ragionamento in-context, i metodi di Generazione Aumentata con Recupero (Retrieval-Augmented Generation) raggiungono una modesta accuratezza del 60% nel rispondere a domande su singoli fatti, indipendentemente dalla lunghezza del contesto. Tra i metodi di estensione del contesto, le prestazioni più elevate sono dimostrate dai trasformatori con memoria ricorrente, che consentono di elaborare lunghezze fino a 11 milioni di token. Il benchmark BABILong è estendibile a qualsiasi lunghezza per supportare la valutazione di nuovi modelli con capacità aumentate, e forniamo suddivisioni fino a lunghezze di 1 milione di token.

English

In recent years, the input context sizes of large language models (LLMs) have increased dramatically. However, existing evaluation methods have not kept pace, failing to comprehensively assess the efficiency of models in handling long contexts. To bridge this gap, we introduce the BABILong benchmark, designed to test language models' ability to reason across facts distributed in extremely long documents. BABILong includes a diverse set of 20 reasoning tasks, including fact chaining, simple induction, deduction, counting, and handling lists/sets. These tasks are challenging on their own, and even more demanding when the required facts are scattered across long natural text. Our evaluations show that popular LLMs effectively utilize only 10-20\% of the context and their performance declines sharply with increased reasoning complexity. Among alternatives to in-context reasoning, Retrieval-Augmented Generation methods achieve a modest 60\% accuracy on single-fact question answering, independent of context length. Among context extension methods, the highest performance is demonstrated by recurrent memory transformers, enabling the processing of lengths up to 11 million tokens. The BABILong benchmark is extendable to any length to support the evaluation of new upcoming models with increased capabilities, and we provide splits up to 1 million token lengths.

BABILong: Testare i limiti degli LLM con il ragionamento in contesti lunghi Ragionamento-in-un-pagliaio

BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack

Abstract

Support