Продевание иголки: способны ли большие языковые модели следовать за нитью в стоге сена почти миллионного масштаба?
Needle Threading: Can LLMs Follow Threads through Near-Million-Scale Haystacks?
November 7, 2024
Авторы: Jonathan Roberts, Kai Han, Samuel Albanie
cs.AI
Аннотация
По мере увеличения ограничений контекста больших языковых моделей (LLM) расширяется спектр их возможных применений и производных функций. Во многих реальных задачах решения зависят от деталей, разбросанных по коллекциям зачастую разнородных документов, содержащих в основном нерелевантную информацию. LLM с длинным контекстом кажутся хорошо подходящими для такой формы сложного информационного поиска и рассуждений, которые традиционно оказываются дорогостоящими и трудоемкими. Однако, хотя разработка моделей с более длинным контекстом демонстрировала быстрый прогресс в последние годы, наше понимание того, насколько эффективно LLM используют свой контекст, не поспевало за этим развитием. Чтобы устранить этот пробел, мы проводим серию экспериментов по поиску информации, предназначенных для оценки возможностей 17 ведущих LLM, таких как их способность отслеживать цепочки информации в пределах окна контекста. Примечательно, что мы обнаружили, что многие модели обладают замечательной устойчивостью к параллельным потокам: они способны одновременно отслеживать несколько цепочек без значительной потери производительности. Тем не менее, для многих моделей мы выявили, что эффективный предел контекста существенно короче заявленной длины контекста, причем точность снижается по мере роста окна контекста. Наше исследование также подчеркивает важный момент: количество токенов от разных токенизаторов не следует сравнивать напрямую — они часто соответствуют существенно разному количеству письменных символов. Мы публикуем наш код и экспериментальные данные для работы с длинным контекстом.
English
As the context limits of Large Language Models (LLMs) increase, the range of
possible applications and downstream functions broadens. In many real-world
tasks, decisions depend on details scattered across collections of often
disparate documents containing mostly irrelevant information. Long-context LLMs
appear well-suited to this form of complex information retrieval and reasoning,
which has traditionally proven costly and time-consuming. However, although the
development of longer context models has seen rapid gains in recent years, our
understanding of how effectively LLMs use their context has not kept pace. To
address this, we conduct a set of retrieval experiments designed to evaluate
the capabilities of 17 leading LLMs, such as their ability to follow threads of
information through the context window. Strikingly, we find that many models
are remarkably threadsafe: capable of simultaneously following multiple threads
without significant loss in performance. Still, for many models, we find the
effective context limit is significantly shorter than the supported context
length, with accuracy decreasing as the context window grows. Our study also
highlights the important point that token counts from different tokenizers
should not be directly compared -- they often correspond to substantially
different numbers of written characters. We release our code and long-context
experimental data.