ChroKnowledge: Svelare la Conoscenza Cronologica dei Modelli Linguistici in Diversi Domini
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains
October 13, 2024
Autori: Yein Park, Chanwoong Yoon, Jungwoo Park, Donghyeon Lee, Minbyul Jeong, Jaewoo Kang
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno avuto un impatto significativo su molti aspetti delle nostre vite. Tuttavia, valutare e garantire la loro conoscenza cronologica rimane una sfida. Gli approcci esistenti non riescono a affrontare la natura cumulativa della conoscenza, spesso basandosi su un singolo timestamp. Per superare questo ostacolo, presentiamo ChroKnowBench, un dataset di benchmark progettato per valutare la conoscenza accumulata cronologicamente su tre aspetti chiave: multipli domini, dipendenza temporale, stato temporale. Il nostro benchmark distingue tra la conoscenza che si evolve (ad esempio, scoperte scientifiche, leggi emendate) e la conoscenza che rimane costante (ad esempio, verità matematiche, fatti di buon senso). Basandoci su questo benchmark, presentiamo ChroKnowledge (Categorizzazione Cronologica della Conoscenza), un nuovo framework basato su campionamento per valutare e aggiornare la conoscenza cronologica non parametrica dei LLM. La nostra valutazione mostra: (1) La capacità di evocare la conoscenza temporale varia a seconda del formato dei dati su cui il modello è stato addestrato. (2) I LLM richiamano parzialmente la conoscenza o mostrano un'interruzione ai confini temporali anziché richiamare correttamente tutti gli aspetti della conoscenza. Pertanto, applichiamo il nostro ChroKnowPrompt, una sollecitazione approfondita per evocare la conoscenza cronologica attraverso un attraversamento passo dopo passo degli intervalli temporali circostanti. Osserviamo che il nostro framework aggiorna con successo la conoscenza complessiva lungo l'intera linea temporale sia nel dominio biomedico (+11,9%) che nel dominio generale (+2,8%), dimostrandone l'efficacia nel perfezionare la conoscenza temporale. Questo approccio non parametrico consente anche aggiornamenti della conoscenza non solo nei modelli open-source ma anche nei LLM proprietari, garantendo un'applicabilità completa tra i tipi di modelli. Effettuiamo un'analisi approfondita basata sulle caratteristiche temporali di ChroKnowPrompt e convalidiamo il potenziale di vari modelli nell'evocare la conoscenza temporale intrinseca attraverso il nostro metodo.
English
Large language models (LLMs) have significantly impacted many aspects of our
lives. However, assessing and ensuring their chronological knowledge remains
challenging. Existing approaches fall short in addressing the accumulative
nature of knowledge, often relying on a single time stamp. To overcome this, we
introduce ChroKnowBench, a benchmark dataset designed to evaluate
chronologically accumulated knowledge across three key aspects: multiple
domains, time dependency, temporal state. Our benchmark distinguishes between
knowledge that evolves (e.g., scientific discoveries, amended laws) and
knowledge that remain constant (e.g., mathematical truths, commonsense facts).
Building on this benchmark, we present ChroKnowledge (Chronological
Categorization of Knowledge), a novel sampling-based framework for evaluating
and updating LLMs' non-parametric chronological knowledge. Our evaluation
shows: (1) The ability of eliciting temporal knowledge varies depending on the
data format that model was trained on. (2) LLMs partially recall knowledge or
show a cut-off at temporal boundaries rather than recalling all aspects of
knowledge correctly. Thus, we apply our ChroKnowPrompt, an in-depth prompting
to elicit chronological knowledge by traversing step-by-step through the
surrounding time spans. We observe that our framework successfully updates the
overall knowledge across the entire timeline in both the biomedical domain
(+11.9%) and the general domain (+2.8%), demonstrating its effectiveness in
refining temporal knowledge. This non-parametric approach also enables
knowledge updates not only in open-source models but also in proprietary LLMs,
ensuring comprehensive applicability across model types. We perform a
comprehensive analysis based on temporal characteristics of ChroKnowPrompt and
validate the potential of various models to elicit intrinsic temporal knowledge
through our method.Summary
AI-Generated Summary