ChroKnowledge: Svelare la Conoscenza Cronologica dei Modelli Linguistici in Diversi Domini

Abstract

I grandi modelli linguistici (LLM) hanno avuto un impatto significativo su molti aspetti delle nostre vite. Tuttavia, valutare e garantire la loro conoscenza cronologica rimane una sfida. Gli approcci esistenti non riescono a affrontare la natura cumulativa della conoscenza, spesso basandosi su un singolo timestamp. Per superare questo ostacolo, presentiamo ChroKnowBench, un dataset di benchmark progettato per valutare la conoscenza accumulata cronologicamente su tre aspetti chiave: multipli domini, dipendenza temporale, stato temporale. Il nostro benchmark distingue tra la conoscenza che si evolve (ad esempio, scoperte scientifiche, leggi emendate) e la conoscenza che rimane costante (ad esempio, verità matematiche, fatti di buon senso). Basandoci su questo benchmark, presentiamo ChroKnowledge (Categorizzazione Cronologica della Conoscenza), un nuovo framework basato su campionamento per valutare e aggiornare la conoscenza cronologica non parametrica dei LLM. La nostra valutazione mostra: (1) La capacità di evocare la conoscenza temporale varia a seconda del formato dei dati su cui il modello è stato addestrato. (2) I LLM richiamano parzialmente la conoscenza o mostrano un'interruzione ai confini temporali anziché richiamare correttamente tutti gli aspetti della conoscenza. Pertanto, applichiamo il nostro ChroKnowPrompt, una sollecitazione approfondita per evocare la conoscenza cronologica attraverso un attraversamento passo dopo passo degli intervalli temporali circostanti. Osserviamo che il nostro framework aggiorna con successo la conoscenza complessiva lungo l'intera linea temporale sia nel dominio biomedico (+11,9%) che nel dominio generale (+2,8%), dimostrandone l'efficacia nel perfezionare la conoscenza temporale. Questo approccio non parametrico consente anche aggiornamenti della conoscenza non solo nei modelli open-source ma anche nei LLM proprietari, garantendo un'applicabilità completa tra i tipi di modelli. Effettuiamo un'analisi approfondita basata sulle caratteristiche temporali di ChroKnowPrompt e convalidiamo il potenziale di vari modelli nell'evocare la conoscenza temporale intrinseca attraverso il nostro metodo.

English

Large language models (LLMs) have significantly impacted many aspects of our lives. However, assessing and ensuring their chronological knowledge remains challenging. Existing approaches fall short in addressing the accumulative nature of knowledge, often relying on a single time stamp. To overcome this, we introduce ChroKnowBench, a benchmark dataset designed to evaluate chronologically accumulated knowledge across three key aspects: multiple domains, time dependency, temporal state. Our benchmark distinguishes between knowledge that evolves (e.g., scientific discoveries, amended laws) and knowledge that remain constant (e.g., mathematical truths, commonsense facts). Building on this benchmark, we present ChroKnowledge (Chronological Categorization of Knowledge), a novel sampling-based framework for evaluating and updating LLMs' non-parametric chronological knowledge. Our evaluation shows: (1) The ability of eliciting temporal knowledge varies depending on the data format that model was trained on. (2) LLMs partially recall knowledge or show a cut-off at temporal boundaries rather than recalling all aspects of knowledge correctly. Thus, we apply our ChroKnowPrompt, an in-depth prompting to elicit chronological knowledge by traversing step-by-step through the surrounding time spans. We observe that our framework successfully updates the overall knowledge across the entire timeline in both the biomedical domain (+11.9%) and the general domain (+2.8%), demonstrating its effectiveness in refining temporal knowledge. This non-parametric approach also enables knowledge updates not only in open-source models but also in proprietary LLMs, ensuring comprehensive applicability across model types. We perform a comprehensive analysis based on temporal characteristics of ChroKnowPrompt and validate the potential of various models to elicit intrinsic temporal knowledge through our method.

ChroKnowledge: Svelare la Conoscenza Cronologica dei Modelli Linguistici in Diversi Domini

ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains

Abstract

Summary

Support

Support