Op Zoek naar Naalden in een Hooiberg van 10 Miljoen: Recurrent Geheugen Vindt Wat LLM's Missen
In Search of Needles in a 10M Haystack: Recurrent Memory Finds What LLMs Miss
February 16, 2024
Auteurs: Yuri Kuratov, Aydar Bulatov, Petr Anokhin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev
cs.AI
Samenvatting
Dit artikel behandelt de uitdaging van het verwerken van lange documenten met behulp van generatieve transformermodellen. Om verschillende benaderingen te evalueren, introduceren we BABILong, een nieuwe benchmark die is ontworpen om de mogelijkheden van modellen te beoordelen bij het extraheren en verwerken van verspreide feiten binnen uitgebreide teksten. Onze evaluatie, die benchmarks omvat voor GPT-4 en RAG, laat zien dat gangbare methoden alleen effectief zijn voor reeksen tot 10^4 elementen. Daarentegen maakt het finetunen van GPT-2 met recurrent memory-augmentaties het mogelijk om taken te verwerken die tot 10^7 elementen omvatten. Deze prestatie markeert een aanzienlijke sprong voorwaarts, aangezien dit verreweg de langste invoer is die tot nu toe door een open neuraal netwerkmodel is verwerkt, wat een significante verbetering aantoont in de verwerkingscapaciteiten voor lange sequenties.
English
This paper addresses the challenge of processing long documents using
generative transformer models. To evaluate different approaches, we introduce
BABILong, a new benchmark designed to assess model capabilities in extracting
and processing distributed facts within extensive texts. Our evaluation, which
includes benchmarks for GPT-4 and RAG, reveals that common methods are
effective only for sequences up to 10^4 elements. In contrast, fine-tuning
GPT-2 with recurrent memory augmentations enables it to handle tasks involving
up to 10^7 elements. This achievement marks a substantial leap, as it is by
far the longest input processed by any open neural network model to date,
demonstrating a significant improvement in the processing capabilities for long
sequences.