Nadeleinfädeln: Können LLMs Fäden durch nahezu millionenfache Heuhaufen verfolgen?

papers.abstract

Mit der Erweiterung der Kontextgrenzen von Large Language Models (LLMs) vergrößert sich auch das Spektrum möglicher Anwendungen und nachgelagerter Funktionen. Bei vielen realen Aufgaben hängen Entscheidungen von Details ab, die über Sammlungen oft unterschiedlicher Dokumente verstreut sind, die größtenteils irrelevante Informationen enthalten. Langkontext-LLMs scheinen gut geeignet zu sein für diese Form der komplexen Informationsbeschaffung und des Schlussfolgerns, die traditionell als kostspielig und zeitaufwendig gilt. Obwohl die Entwicklung von Modellen mit längeren Kontexten in den letzten Jahren rasante Fortschritte gemacht hat, hinkt unser Verständnis davon, wie effektiv LLMs ihren Kontext nutzen, hinterher. Um dies zu adressieren, führen wir eine Reihe von Retrieval-Experimenten durch, die darauf abzielen, die Fähigkeiten von 17 führenden LLMs zu bewerten, wie beispielsweise ihre Fähigkeit, Informationsfäden durch das Kontextfenster zu verfolgen. Auffällig ist, dass wir feststellen, dass viele Modelle bemerkenswert threadsicher sind: Sie können gleichzeitig mehrere Fäden verfolgen, ohne signifikante Leistungseinbußen. Dennoch stellen wir bei vielen Modellen fest, dass die effektive Kontextgrenze deutlich kürzer ist als die unterstützte Kontextlänge, wobei die Genauigkeit mit zunehmender Größe des Kontextfensters abnimmt. Unsere Studie unterstreicht auch den wichtigen Punkt, dass Token-Zählungen verschiedener Tokenizer nicht direkt verglichen werden sollten – sie entsprechen oft erheblich unterschiedlichen Anzahlen geschriebener Zeichen. Wir veröffentlichen unseren Code und die Langkontext-Experimentaldaten.

English

As the context limits of Large Language Models (LLMs) increase, the range of possible applications and downstream functions broadens. In many real-world tasks, decisions depend on details scattered across collections of often disparate documents containing mostly irrelevant information. Long-context LLMs appear well-suited to this form of complex information retrieval and reasoning, which has traditionally proven costly and time-consuming. However, although the development of longer context models has seen rapid gains in recent years, our understanding of how effectively LLMs use their context has not kept pace. To address this, we conduct a set of retrieval experiments designed to evaluate the capabilities of 17 leading LLMs, such as their ability to follow threads of information through the context window. Strikingly, we find that many models are remarkably threadsafe: capable of simultaneously following multiple threads without significant loss in performance. Still, for many models, we find the effective context limit is significantly shorter than the supported context length, with accuracy decreasing as the context window grows. Our study also highlights the important point that token counts from different tokenizers should not be directly compared -- they often correspond to substantially different numbers of written characters. We release our code and long-context experimental data.

Nadeleinfädeln: Können LLMs Fäden durch nahezu millionenfache Heuhaufen verfolgen?

Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?

papers.abstract

Support