Naald in het hooiberg: Kunnen LLM's draden volgen door bijna miljoen grote hooibergen?
Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?
November 7, 2024
Auteurs: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI
Samenvatting
Naarmate de contextlimieten van Large Language Models (LLM's) toenemen, breidt het scala aan mogelijke toepassingen en downstream-functies zich uit. Bij veel taken in de praktijk zijn beslissingen afhankelijk van details die verspreid zijn over verzamelingen van vaak uiteenlopende documenten die voornamelijk irrelevante informatie bevatten. LLM's met een lange context lijken bijzonder geschikt voor deze vorm van complexe informatie-extractie en redenering, wat traditioneel kostbaar en tijdrovend is gebleken. Hoewel de ontwikkeling van modellen met een langere context de afgelopen jaren echter een snelle vooruitgang heeft geboekt, is ons begrip van hoe effectief LLM's hun context gebruiken, niet gelijk opgegaan. Om dit aan te pakken, voeren we een reeks retrieval-experimenten uit die zijn ontworpen om de capaciteiten van 17 toonaangevende LLM's te evalueren, zoals hun vermogen om informatie-draden door het contextvenster te volgen. Opvallend genoeg stellen we vast dat veel modellen opmerkelijk 'thread-safe' zijn: ze kunnen gelijktijdig meerdere draden volgen zonder significant prestatieverlies. Toch stellen we voor veel modellen vast dat de effectieve contextlimiet aanzienlijk korter is dan de ondersteunde contextlengte, waarbij de nauwkeurigheid afneemt naarmate het contextvenster groeit. Onze studie benadrukt ook het belangrijke punt dat tokentellingen van verschillende tokenizers niet direct vergeleken moeten worden – ze komen vaak overeen met aanzienlijk verschillende aantallen geschreven karakters. We geven onze code en lange-context experimentele data vrij.
English
As the context limits of Large Language Models (LLMs) increase, the range of
possible applications and downstream functions broadens. In many real-world
tasks, decisions depend on details scattered across collections of often
disparate documents containing mostly irrelevant information. Long-context LLMs
appear well-suited to this form of complex information retrieval and reasoning,
which has traditionally proven costly and time-consuming. However, although the
development of longer context models has seen rapid gains in recent years, our
understanding of how effectively LLMs use their context has not kept pace. To
address this, we conduct a set of retrieval experiments designed to evaluate
the capabilities of 17 leading LLMs, such as their ability to follow threads of
information through the context window. Strikingly, we find that many models
are remarkably threadsafe: capable of simultaneously following multiple threads
without significant loss in performance. Still, for many models, we find the
effective context limit is significantly shorter than the supported context
length, with accuracy decreasing as the context window grows. Our study also
highlights the important point that token counts from different tokenizers
should not be directly compared -- they often correspond to substantially
different numbers of written characters. We release our code and long-context
experimental data.