ChatPaper.aiChatPaper

ChroKnowledge : Révéler la Connaissance Chronologique des Modèles de Langage dans Plusieurs Domaines

ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains

October 13, 2024
Auteurs: Yein Park, Chanwoong Yoon, Jungwoo Park, Donghyeon Lee, Minbyul Jeong, Jaewoo Kang
cs.AI

Résumé

Les grands modèles de langage (LLMs) ont eu un impact significatif sur de nombreux aspects de nos vies. Cependant, évaluer et garantir leur connaissance chronologique reste un défi. Les approches existantes sont insuffisantes pour traiter la nature cumulative de la connaissance, s'appuyant souvent sur un seul horodatage. Pour surmonter cela, nous présentons ChroKnowBench, un ensemble de données de référence conçu pour évaluer la connaissance accumulée chronologiquement à travers trois aspects clés : plusieurs domaines, dépendance temporelle, état temporel. Notre ensemble de données de référence distingue entre la connaissance qui évolue (par exemple, découvertes scientifiques, lois modifiées) et la connaissance qui reste constante (par exemple, vérités mathématiques, faits de bon sens). En nous appuyant sur cet ensemble de données de référence, nous présentons ChroKnowledge (Catégorisation Chronologique de la Connaissance), un cadre novateur basé sur l'échantillonnage pour évaluer et mettre à jour la connaissance chronologique non paramétrique des LLMs. Notre évaluation montre : (1) La capacité d'extraire la connaissance temporelle varie en fonction du format de données sur lequel le modèle a été formé. (2) Les LLMs rappellent partiellement la connaissance ou montrent une coupure aux limites temporelles plutôt que de rappeler correctement tous les aspects de la connaissance. Ainsi, nous appliquons notre ChroKnowPrompt, une incitation approfondie pour extraire la connaissance chronologique en traversant pas à pas les plages temporelles environnantes. Nous observons que notre cadre met à jour avec succès la connaissance globale sur l'ensemble de la chronologie, tant dans le domaine biomédical (+11,9%) que dans le domaine général (+2,8%), démontrant son efficacité dans le raffinement de la connaissance temporelle. Cette approche non paramétrique permet également des mises à jour de la connaissance non seulement dans les modèles open-source mais aussi dans les LLMs propriétaires, garantissant une applicabilité complète à travers les types de modèles. Nous réalisons une analyse complète basée sur les caractéristiques temporelles de ChroKnowPrompt et validons le potentiel de divers modèles pour extraire la connaissance temporelle intrinsèque grâce à notre méthode.
English
Large language models (LLMs) have significantly impacted many aspects of our lives. However, assessing and ensuring their chronological knowledge remains challenging. Existing approaches fall short in addressing the accumulative nature of knowledge, often relying on a single time stamp. To overcome this, we introduce ChroKnowBench, a benchmark dataset designed to evaluate chronologically accumulated knowledge across three key aspects: multiple domains, time dependency, temporal state. Our benchmark distinguishes between knowledge that evolves (e.g., scientific discoveries, amended laws) and knowledge that remain constant (e.g., mathematical truths, commonsense facts). Building on this benchmark, we present ChroKnowledge (Chronological Categorization of Knowledge), a novel sampling-based framework for evaluating and updating LLMs' non-parametric chronological knowledge. Our evaluation shows: (1) The ability of eliciting temporal knowledge varies depending on the data format that model was trained on. (2) LLMs partially recall knowledge or show a cut-off at temporal boundaries rather than recalling all aspects of knowledge correctly. Thus, we apply our ChroKnowPrompt, an in-depth prompting to elicit chronological knowledge by traversing step-by-step through the surrounding time spans. We observe that our framework successfully updates the overall knowledge across the entire timeline in both the biomedical domain (+11.9%) and the general domain (+2.8%), demonstrating its effectiveness in refining temporal knowledge. This non-parametric approach also enables knowledge updates not only in open-source models but also in proprietary LLMs, ensuring comprehensive applicability across model types. We perform a comprehensive analysis based on temporal characteristics of ChroKnowPrompt and validate the potential of various models to elicit intrinsic temporal knowledge through our method.

Summary

AI-Generated Summary

PDF83November 16, 2024