Способны ли большие языковые модели успевать? Бенчмаркинг онлайн-адаптации к непрерывным потокам знаний

Аннотация

Крупные языковые модели, функционирующие в динамичных реальных условиях, часто сталкиваются со знаниями, которые непрерывно эволюционируют или появляются постепенно. Для сохранения точности и эффективности модели должны адаптироваться к вновь поступающей информации в реальном времени. Мы представляем метод Online Adaptation to Continual Knowledge Streams (OAKS) для оценки этой способности, создавая эталонный тест для онлайн-адаптации к непрерывно обновляемым потокам знаний. В частности, тест структурирован как последовательность детализированных контекстных фрагментов, в которых факты динамически изменяются с течением времени. OAKS включает два набора данных: OAKS-BABI и OAKS-Novel, где отдельные факты многократно изменяются across контекстных фрагментов. Эти наборы данных содержат плотные аннотации для измерения того, насколько точно модели отслеживают изменения. При оценке 14 моделей с различными подходами к выводу мы наблюдаем существенные ограничения современных методик. Как передовые модели, так и агентные системы памяти не способны к надежной адаптации в OAKS, демонстрируя задержки в отслеживании состояния и подверженность отвлечению внимания в потоковых средах.

English

LLMs operating in dynamic real-world contexts often encounter knowledge that evolves continuously or emerges incrementally. To remain accurate and effective, models must adapt to newly arriving information on the fly. We introduce Online Adaptation to Continual Knowledge Streams(OAKS) to evaluate this capability, establishing a benchmark for online adaptation over streaming, continually updating knowledge. Specifically, the benchmark is structured as a sequence of fine-grained context chunks where facts change dynamically across time intervals. OAKS comprises two datasets: OAKS-BABI and OAKS-Novel, where individual facts evolve multiple times across context chunks. These datasets include dense annotations to measure whether models track changes accurately. Evaluating 14 models with varied inference approaches, we observe significant limitations in current methodologies. Both state-of-the-art models and agentic memory systems fail to adapt robustly on OAKS, demonstrating delays in state-tracking and susceptibility to distraction within streaming environments.

Способны ли большие языковые модели успевать? Бенчмаркинг онлайн-адаптации к непрерывным потокам знаний

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Аннотация

Support