Kunnen grote taalmodellen bijblijven? Het benchmarken van online aanpassing aan voortdurende kennisstromen.

Samenvatting

LLM's die functioneren in dynamische real-world contexten komen vaak kennis tegen die continu evolueert of incrementeel opduikt. Om accuraat en effectief te blijven, moeten modellen zich ter plekke kunnen aanpassen aan nieuw binnenkomende informatie. Wij introduceren Online Adaptation to Continual Knowledge Streams (OAKS) om deze capaciteit te evalueren, en stellen daarmee een benchmark in voor online aanpassing aan gestroomlijnde, continu bijgewerkte kennis. Concreet is de benchmark gestructureerd als een reeks fijnmazige contextsegmenten waarin feiten dynamisch veranderen over tijdsintervallen. OAKS omvat twee datasets: OAKS-BABI en OAKS-Novel, waarin individuele feiten meerdere keren evolueren over de contextsegmenten heen. Deze datasets bevatten gedetailleerde annotaties om te meten of modellen veranderingen nauwkeurig bijhouden. Na evaluatie van 14 modellen met uiteenlopende inferentiebenaderingen, constateren we aanzienlijke beperkingen in de huidige methodologieën. Zowel state-of-the-art modellen als agent-geheugensystemen slagen er niet in zich robuust aan te passen op OAKS, wat wijst op vertragingen in het bijhouden van de toestand en gevoeligheid voor afleiding binnen stroomomgevingen.

English

LLMs operating in dynamic real-world contexts often encounter knowledge that evolves continuously or emerges incrementally. To remain accurate and effective, models must adapt to newly arriving information on the fly. We introduce Online Adaptation to Continual Knowledge Streams(OAKS) to evaluate this capability, establishing a benchmark for online adaptation over streaming, continually updating knowledge. Specifically, the benchmark is structured as a sequence of fine-grained context chunks where facts change dynamically across time intervals. OAKS comprises two datasets: OAKS-BABI and OAKS-Novel, where individual facts evolve multiple times across context chunks. These datasets include dense annotations to measure whether models track changes accurately. Evaluating 14 models with varied inference approaches, we observe significant limitations in current methodologies. Both state-of-the-art models and agentic memory systems fail to adapt robustly on OAKS, demonstrating delays in state-tracking and susceptibility to distraction within streaming environments.

Kunnen grote taalmodellen bijblijven? Het benchmarken van online aanpassing aan voortdurende kennisstromen.

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Samenvatting

Support