ChatPaper.aiChatPaper

ChroKnowledge: Revelando o Conhecimento Cronológico de Modelos de Linguagem em Múltiplos Domínios

ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains

October 13, 2024
Autores: Yein Park, Chanwoong Yoon, Jungwoo Park, Donghyeon Lee, Minbyul Jeong, Jaewoo Kang
cs.AI

Resumo

Os grandes modelos de linguagem (LLMs) tiveram um impacto significativo em muitos aspectos de nossas vidas. No entanto, avaliar e garantir seu conhecimento cronológico permanece desafiador. As abordagens existentes falham em lidar com a natureza acumulativa do conhecimento, muitas vezes dependendo de um único carimbo de tempo. Para superar isso, apresentamos o ChroKnowBench, um conjunto de dados de referência projetado para avaliar o conhecimento acumulado cronologicamente em três aspectos-chave: múltiplos domínios, dependência temporal, estado temporal. Nosso conjunto de dados de referência distingue entre o conhecimento que evolui (por exemplo, descobertas científicas, leis alteradas) e o conhecimento que permanece constante (por exemplo, verdades matemáticas, fatos do senso comum). Com base nesse conjunto de dados de referência, apresentamos o ChroKnowledge (Categorização Cronológica do Conhecimento), um novo framework baseado em amostragem para avaliar e atualizar o conhecimento cronológico não paramétrico dos LLMs. Nossa avaliação mostra: (1) A capacidade de elicitar conhecimento temporal varia dependendo do formato de dados no qual o modelo foi treinado. (2) Os LLMs lembram parcialmente o conhecimento ou mostram um corte nos limites temporais em vez de lembrar todos os aspectos do conhecimento corretamente. Assim, aplicamos nosso ChroKnowPrompt, uma solicitação aprofundada para elicitar conhecimento cronológico atravessando passo a passo os períodos de tempo circundantes. Observamos que nosso framework atualiza com sucesso o conhecimento geral ao longo de toda a linha do tempo tanto no domínio biomédico (+11,9%) quanto no domínio geral (+2,8%), demonstrando sua eficácia em refinar o conhecimento temporal. Essa abordagem não paramétrica também permite atualizações de conhecimento não apenas em modelos de código aberto, mas também em LLMs proprietários, garantindo aplicabilidade abrangente entre os tipos de modelos. Realizamos uma análise abrangente com base nas características temporais do ChroKnowPrompt e validamos o potencial de vários modelos para elicitar conhecimento temporal intrínseco por meio de nosso método.
English
Large language models (LLMs) have significantly impacted many aspects of our lives. However, assessing and ensuring their chronological knowledge remains challenging. Existing approaches fall short in addressing the accumulative nature of knowledge, often relying on a single time stamp. To overcome this, we introduce ChroKnowBench, a benchmark dataset designed to evaluate chronologically accumulated knowledge across three key aspects: multiple domains, time dependency, temporal state. Our benchmark distinguishes between knowledge that evolves (e.g., scientific discoveries, amended laws) and knowledge that remain constant (e.g., mathematical truths, commonsense facts). Building on this benchmark, we present ChroKnowledge (Chronological Categorization of Knowledge), a novel sampling-based framework for evaluating and updating LLMs' non-parametric chronological knowledge. Our evaluation shows: (1) The ability of eliciting temporal knowledge varies depending on the data format that model was trained on. (2) LLMs partially recall knowledge or show a cut-off at temporal boundaries rather than recalling all aspects of knowledge correctly. Thus, we apply our ChroKnowPrompt, an in-depth prompting to elicit chronological knowledge by traversing step-by-step through the surrounding time spans. We observe that our framework successfully updates the overall knowledge across the entire timeline in both the biomedical domain (+11.9%) and the general domain (+2.8%), demonstrating its effectiveness in refining temporal knowledge. This non-parametric approach also enables knowledge updates not only in open-source models but also in proprietary LLMs, ensuring comprehensive applicability across model types. We perform a comprehensive analysis based on temporal characteristics of ChroKnowPrompt and validate the potential of various models to elicit intrinsic temporal knowledge through our method.

Summary

AI-Generated Summary

PDF83November 16, 2024