ChroKnowledge : Révéler la Connaissance Chronologique des Modèles de Langage dans Plusieurs Domaines
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains
October 13, 2024
Auteurs: Yein Park, Chanwoong Yoon, Jungwoo Park, Donghyeon Lee, Minbyul Jeong, Jaewoo Kang
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont eu un impact significatif sur de nombreux aspects de nos vies. Cependant, évaluer et garantir leur connaissance chronologique reste un défi. Les approches existantes sont insuffisantes pour traiter la nature cumulative de la connaissance, s'appuyant souvent sur un seul horodatage. Pour surmonter cela, nous présentons ChroKnowBench, un ensemble de données de référence conçu pour évaluer la connaissance accumulée chronologiquement à travers trois aspects clés : plusieurs domaines, dépendance temporelle, état temporel. Notre ensemble de données de référence distingue entre la connaissance qui évolue (par exemple, découvertes scientifiques, lois modifiées) et la connaissance qui reste constante (par exemple, vérités mathématiques, faits de bon sens). En nous appuyant sur cet ensemble de données de référence, nous présentons ChroKnowledge (Catégorisation Chronologique de la Connaissance), un cadre novateur basé sur l'échantillonnage pour évaluer et mettre à jour la connaissance chronologique non paramétrique des LLMs. Notre évaluation montre : (1) La capacité d'extraire la connaissance temporelle varie en fonction du format de données sur lequel le modèle a été formé. (2) Les LLMs rappellent partiellement la connaissance ou montrent une coupure aux limites temporelles plutôt que de rappeler correctement tous les aspects de la connaissance. Ainsi, nous appliquons notre ChroKnowPrompt, une incitation approfondie pour extraire la connaissance chronologique en traversant pas à pas les plages temporelles environnantes. Nous observons que notre cadre met à jour avec succès la connaissance globale sur l'ensemble de la chronologie, tant dans le domaine biomédical (+11,9%) que dans le domaine général (+2,8%), démontrant son efficacité dans le raffinement de la connaissance temporelle. Cette approche non paramétrique permet également des mises à jour de la connaissance non seulement dans les modèles open-source mais aussi dans les LLMs propriétaires, garantissant une applicabilité complète à travers les types de modèles. Nous réalisons une analyse complète basée sur les caractéristiques temporelles de ChroKnowPrompt et validons le potentiel de divers modèles pour extraire la connaissance temporelle intrinsèque grâce à notre méthode.
English
Large language models (LLMs) have significantly impacted many aspects of our
lives. However, assessing and ensuring their chronological knowledge remains
challenging. Existing approaches fall short in addressing the accumulative
nature of knowledge, often relying on a single time stamp. To overcome this, we
introduce ChroKnowBench, a benchmark dataset designed to evaluate
chronologically accumulated knowledge across three key aspects: multiple
domains, time dependency, temporal state. Our benchmark distinguishes between
knowledge that evolves (e.g., scientific discoveries, amended laws) and
knowledge that remain constant (e.g., mathematical truths, commonsense facts).
Building on this benchmark, we present ChroKnowledge (Chronological
Categorization of Knowledge), a novel sampling-based framework for evaluating
and updating LLMs' non-parametric chronological knowledge. Our evaluation
shows: (1) The ability of eliciting temporal knowledge varies depending on the
data format that model was trained on. (2) LLMs partially recall knowledge or
show a cut-off at temporal boundaries rather than recalling all aspects of
knowledge correctly. Thus, we apply our ChroKnowPrompt, an in-depth prompting
to elicit chronological knowledge by traversing step-by-step through the
surrounding time spans. We observe that our framework successfully updates the
overall knowledge across the entire timeline in both the biomedical domain
(+11.9%) and the general domain (+2.8%), demonstrating its effectiveness in
refining temporal knowledge. This non-parametric approach also enables
knowledge updates not only in open-source models but also in proprietary LLMs,
ensuring comprehensive applicability across model types. We perform a
comprehensive analysis based on temporal characteristics of ChroKnowPrompt and
validate the potential of various models to elicit intrinsic temporal knowledge
through our method.Summary
AI-Generated Summary