Naald in het hooiberg: Kunnen LLM's draden volgen door bijna miljoen grote hooibergen?

Samenvatting

Naarmate de contextlimieten van Large Language Models (LLM's) toenemen, breidt het scala aan mogelijke toepassingen en downstream-functies zich uit. Bij veel taken in de praktijk zijn beslissingen afhankelijk van details die verspreid zijn over verzamelingen van vaak uiteenlopende documenten die voornamelijk irrelevante informatie bevatten. LLM's met een lange context lijken bijzonder geschikt voor deze vorm van complexe informatie-extractie en redenering, wat traditioneel kostbaar en tijdrovend is gebleken. Hoewel de ontwikkeling van modellen met een langere context de afgelopen jaren echter een snelle vooruitgang heeft geboekt, is ons begrip van hoe effectief LLM's hun context gebruiken, niet gelijk opgegaan. Om dit aan te pakken, voeren we een reeks retrieval-experimenten uit die zijn ontworpen om de capaciteiten van 17 toonaangevende LLM's te evalueren, zoals hun vermogen om informatie-draden door het contextvenster te volgen. Opvallend genoeg stellen we vast dat veel modellen opmerkelijk 'thread-safe' zijn: ze kunnen gelijktijdig meerdere draden volgen zonder significant prestatieverlies. Toch stellen we voor veel modellen vast dat de effectieve contextlimiet aanzienlijk korter is dan de ondersteunde contextlengte, waarbij de nauwkeurigheid afneemt naarmate het contextvenster groeit. Onze studie benadrukt ook het belangrijke punt dat tokentellingen van verschillende tokenizers niet direct vergeleken moeten worden – ze komen vaak overeen met aanzienlijk verschillende aantallen geschreven karakters. We geven onze code en lange-context experimentele data vrij.

English

As the context limits of Large Language Models (LLMs) increase, the range of possible applications and downstream functions broadens. In many real-world tasks, decisions depend on details scattered across collections of often disparate documents containing mostly irrelevant information. Long-context LLMs appear well-suited to this form of complex information retrieval and reasoning, which has traditionally proven costly and time-consuming. However, although the development of longer context models has seen rapid gains in recent years, our understanding of how effectively LLMs use their context has not kept pace. To address this, we conduct a set of retrieval experiments designed to evaluate the capabilities of 17 leading LLMs, such as their ability to follow threads of information through the context window. Strikingly, we find that many models are remarkably threadsafe: capable of simultaneously following multiple threads without significant loss in performance. Still, for many models, we find the effective context limit is significantly shorter than the supported context length, with accuracy decreasing as the context window grows. Our study also highlights the important point that token counts from different tokenizers should not be directly compared -- they often correspond to substantially different numbers of written characters. We release our code and long-context experimental data.

Naald in het hooiberg: Kunnen LLM's draden volgen door bijna miljoen grote hooibergen?

Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?

Samenvatting

Support