Nadeleinfädeln: Können LLMs Fäden durch nahezu millionenfache Heuhaufen verfolgen?
Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?
November 7, 2024
papers.authors: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI
papers.abstract
Mit der Erweiterung der Kontextgrenzen von Large Language Models (LLMs) vergrößert sich auch das Spektrum möglicher Anwendungen und nachgelagerter Funktionen. Bei vielen realen Aufgaben hängen Entscheidungen von Details ab, die über Sammlungen oft unterschiedlicher Dokumente verstreut sind, die größtenteils irrelevante Informationen enthalten. Langkontext-LLMs scheinen gut geeignet zu sein für diese Form der komplexen Informationsbeschaffung und des Schlussfolgerns, die traditionell als kostspielig und zeitaufwendig gilt. Obwohl die Entwicklung von Modellen mit längeren Kontexten in den letzten Jahren rasante Fortschritte gemacht hat, hinkt unser Verständnis davon, wie effektiv LLMs ihren Kontext nutzen, hinterher. Um dies zu adressieren, führen wir eine Reihe von Retrieval-Experimenten durch, die darauf abzielen, die Fähigkeiten von 17 führenden LLMs zu bewerten, wie beispielsweise ihre Fähigkeit, Informationsfäden durch das Kontextfenster zu verfolgen. Auffällig ist, dass wir feststellen, dass viele Modelle bemerkenswert threadsicher sind: Sie können gleichzeitig mehrere Fäden verfolgen, ohne signifikante Leistungseinbußen. Dennoch stellen wir bei vielen Modellen fest, dass die effektive Kontextgrenze deutlich kürzer ist als die unterstützte Kontextlänge, wobei die Genauigkeit mit zunehmender Größe des Kontextfensters abnimmt. Unsere Studie unterstreicht auch den wichtigen Punkt, dass Token-Zählungen verschiedener Tokenizer nicht direkt verglichen werden sollten – sie entsprechen oft erheblich unterschiedlichen Anzahlen geschriebener Zeichen. Wir veröffentlichen unseren Code und die Langkontext-Experimentaldaten.
English
As the context limits of Large Language Models (LLMs) increase, the range of
possible applications and downstream functions broadens. In many real-world
tasks, decisions depend on details scattered across collections of often
disparate documents containing mostly irrelevant information. Long-context LLMs
appear well-suited to this form of complex information retrieval and reasoning,
which has traditionally proven costly and time-consuming. However, although the
development of longer context models has seen rapid gains in recent years, our
understanding of how effectively LLMs use their context has not kept pace. To
address this, we conduct a set of retrieval experiments designed to evaluate
the capabilities of 17 leading LLMs, such as their ability to follow threads of
information through the context window. Strikingly, we find that many models
are remarkably threadsafe: capable of simultaneously following multiple threads
without significant loss in performance. Still, for many models, we find the
effective context limit is significantly shorter than the supported context
length, with accuracy decreasing as the context window grows. Our study also
highlights the important point that token counts from different tokenizers
should not be directly compared -- they often correspond to substantially
different numbers of written characters. We release our code and long-context
experimental data.