ChroKnowledge: Revelando o Conhecimento Cronológico de Modelos de Linguagem em Múltiplos Domínios
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains
October 13, 2024
Autores: Yein Park, Chanwoong Yoon, Jungwoo Park, Donghyeon Lee, Minbyul Jeong, Jaewoo Kang
cs.AI
Resumo
Os grandes modelos de linguagem (LLMs) tiveram um impacto significativo em muitos aspectos de nossas vidas. No entanto, avaliar e garantir seu conhecimento cronológico permanece desafiador. As abordagens existentes falham em lidar com a natureza acumulativa do conhecimento, muitas vezes dependendo de um único carimbo de tempo. Para superar isso, apresentamos o ChroKnowBench, um conjunto de dados de referência projetado para avaliar o conhecimento acumulado cronologicamente em três aspectos-chave: múltiplos domínios, dependência temporal, estado temporal. Nosso conjunto de dados de referência distingue entre o conhecimento que evolui (por exemplo, descobertas científicas, leis alteradas) e o conhecimento que permanece constante (por exemplo, verdades matemáticas, fatos do senso comum). Com base nesse conjunto de dados de referência, apresentamos o ChroKnowledge (Categorização Cronológica do Conhecimento), um novo framework baseado em amostragem para avaliar e atualizar o conhecimento cronológico não paramétrico dos LLMs. Nossa avaliação mostra: (1) A capacidade de elicitar conhecimento temporal varia dependendo do formato de dados no qual o modelo foi treinado. (2) Os LLMs lembram parcialmente o conhecimento ou mostram um corte nos limites temporais em vez de lembrar todos os aspectos do conhecimento corretamente. Assim, aplicamos nosso ChroKnowPrompt, uma solicitação aprofundada para elicitar conhecimento cronológico atravessando passo a passo os períodos de tempo circundantes. Observamos que nosso framework atualiza com sucesso o conhecimento geral ao longo de toda a linha do tempo tanto no domínio biomédico (+11,9%) quanto no domínio geral (+2,8%), demonstrando sua eficácia em refinar o conhecimento temporal. Essa abordagem não paramétrica também permite atualizações de conhecimento não apenas em modelos de código aberto, mas também em LLMs proprietários, garantindo aplicabilidade abrangente entre os tipos de modelos. Realizamos uma análise abrangente com base nas características temporais do ChroKnowPrompt e validamos o potencial de vários modelos para elicitar conhecimento temporal intrínseco por meio de nosso método.
English
Large language models (LLMs) have significantly impacted many aspects of our
lives. However, assessing and ensuring their chronological knowledge remains
challenging. Existing approaches fall short in addressing the accumulative
nature of knowledge, often relying on a single time stamp. To overcome this, we
introduce ChroKnowBench, a benchmark dataset designed to evaluate
chronologically accumulated knowledge across three key aspects: multiple
domains, time dependency, temporal state. Our benchmark distinguishes between
knowledge that evolves (e.g., scientific discoveries, amended laws) and
knowledge that remain constant (e.g., mathematical truths, commonsense facts).
Building on this benchmark, we present ChroKnowledge (Chronological
Categorization of Knowledge), a novel sampling-based framework for evaluating
and updating LLMs' non-parametric chronological knowledge. Our evaluation
shows: (1) The ability of eliciting temporal knowledge varies depending on the
data format that model was trained on. (2) LLMs partially recall knowledge or
show a cut-off at temporal boundaries rather than recalling all aspects of
knowledge correctly. Thus, we apply our ChroKnowPrompt, an in-depth prompting
to elicit chronological knowledge by traversing step-by-step through the
surrounding time spans. We observe that our framework successfully updates the
overall knowledge across the entire timeline in both the biomedical domain
(+11.9%) and the general domain (+2.8%), demonstrating its effectiveness in
refining temporal knowledge. This non-parametric approach also enables
knowledge updates not only in open-source models but also in proprietary LLMs,
ensuring comprehensive applicability across model types. We perform a
comprehensive analysis based on temporal characteristics of ChroKnowPrompt and
validate the potential of various models to elicit intrinsic temporal knowledge
through our method.Summary
AI-Generated Summary