Infilare l'Ago: I Modelli Linguistici Possono Seguire i Fili in Pagliai di Quasi un Milione di Elementi?
Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?
November 7, 2024
Autori: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI
Abstract
Man mano che i limiti contestuali dei Large Language Model (LLM) aumentano, si amplia anche la gamma di possibili applicazioni e funzioni downstream. In molti compiti del mondo reale, le decisioni dipendono da dettagli sparsi in raccolte di documenti spesso disparati, che contengono perlopiù informazioni irrilevanti. Gli LLM a contesto lungo sembrano adatti a questa forma di recupero e ragionamento su informazioni complesse, tradizionalmente costosa e dispendiosa in termini di tempo. Tuttavia, sebbene lo sviluppo di modelli con contesto più lungo abbia registrato rapidi progressi negli ultimi anni, la nostra comprensione di quanto efficacemente gli LLM utilizzino il loro contesto non ha tenuto il passo. Per affrontare questa lacuna, conduciamo una serie di esperimenti di retrieval progettati per valutare le capacità di 17 LLM leader, come la loro abilità di seguire fili informativi attraverso la finestra contestuale. In modo sorprendente, scopriamo che molti modelli sono notevolmente "thread-safe": capaci di seguire simultaneamente più fili senza una significativa perdita di prestazioni. Tuttavia, per molti modelli, rileviamo che il limite contestuale effettivo è significativamente più breve della lunghezza contestuale supportata, con una precisione che diminuisce man mano che la finestra contestuale cresce. Il nostro studio evidenzia anche il punto importante che i conteggi di token da diversi tokenizer non dovrebbero essere confrontati direttamente, poiché spesso corrispondono a numeri sostanzialmente diversi di caratteri scritti. Rilasciamo il nostro codice e i dati sperimentali a lungo contesto.
English
As the context limits of Large Language Models (LLMs) increase, the range of
possible applications and downstream functions broadens. In many real-world
tasks, decisions depend on details scattered across collections of often
disparate documents containing mostly irrelevant information. Long-context LLMs
appear well-suited to this form of complex information retrieval and reasoning,
which has traditionally proven costly and time-consuming. However, although the
development of longer context models has seen rapid gains in recent years, our
understanding of how effectively LLMs use their context has not kept pace. To
address this, we conduct a set of retrieval experiments designed to evaluate
the capabilities of 17 leading LLMs, such as their ability to follow threads of
information through the context window. Strikingly, we find that many models
are remarkably threadsafe: capable of simultaneously following multiple threads
without significant loss in performance. Still, for many models, we find the
effective context limit is significantly shorter than the supported context
length, with accuracy decreasing as the context window grows. Our study also
highlights the important point that token counts from different tokenizers
should not be directly compared -- they often correspond to substantially
different numbers of written characters. We release our code and long-context
experimental data.