ChatPaper.aiChatPaper

Inside-Out: Conoscenza Fattuale Nascosta nei Modelli Linguistici di Grande Dimensione

Inside-Out: Hidden Factual Knowledge in LLMs

March 19, 2025
Autori: Zorik Gekhman, Eyal Ben David, Hadas Orgad, Eran Ofek, Yonatan Belinkov, Idan Szpector, Jonathan Herzig, Roi Reichart
cs.AI

Abstract

Questo lavoro presenta un framework per valutare se i grandi modelli linguistici (LLM) codificano più conoscenza fattuale nei loro parametri rispetto a quanto esprimono nei loro output. Sebbene alcuni studi suggeriscano questa possibilità, nessuno ha chiaramente definito o dimostrato questo fenomeno. Proponiamo innanzitutto una definizione formale di conoscenza, quantificandola per una data domanda come la frazione di coppie di risposte corrette-errate in cui quella corretta è classificata più in alto. Ciò dà origine a conoscenza esterna e interna, a seconda delle informazioni utilizzate per valutare i singoli candidati di risposta: sia le probabilità osservabili a livello di token del modello, sia i suoi calcoli intermedi. La conoscenza nascosta emerge quando la conoscenza interna supera quella esterna. Presentiamo quindi uno studio di caso, applicando questo framework a tre popolari LLM open-weights in un contesto di domande-risposte a libro chiuso. I nostri risultati indicano che: (1) Gli LLM codificano costantemente più conoscenza fattuale internamente rispetto a quanto esprimono esternamente, con un divario medio del 40%. (2) Sorprendentemente, alcune conoscenze sono così profondamente nascoste che un modello può conoscere internamente una risposta perfettamente, ma non riuscire a generarla nemmeno una volta, nonostante un campionamento ripetuto su larga scala di 1.000 risposte. Ciò rivela limitazioni fondamentali nelle capacità di generazione degli LLM, che (3) pone un vincolo pratico sulla scalabilità del calcolo al momento del test attraverso il campionamento ripetuto di risposte nel contesto di domande-risposte a libro chiuso: miglioramenti significativi delle prestazioni rimangono inaccessibili perché alcune risposte non vengono praticamente mai campionate, eppure, se lo fossero, saremmo garantiti nel classificarle al primo posto.
English
This work presents a framework for assessing whether large language models (LLMs) encode more factual knowledge in their parameters than what they express in their outputs. While a few studies hint at this possibility, none has clearly defined or demonstrated this phenomenon. We first propose a formal definition of knowledge, quantifying it for a given question as the fraction of correct-incorrect answer pairs where the correct one is ranked higher. This gives rise to external and internal knowledge, depending on the information used to score individual answer candidates: either the model's observable token-level probabilities or its intermediate computations. Hidden knowledge arises when internal knowledge exceeds external knowledge. We then present a case study, applying this framework to three popular open-weights LLMs in a closed-book QA setup. Our results indicate that: (1) LLMs consistently encode more factual knowledge internally than what they express externally, with an average gap of 40%. (2) Surprisingly, some knowledge is so deeply hidden that a model can internally know an answer perfectly, yet fail to generate it even once, despite large-scale repeated sampling of 1,000 answers. This reveals fundamental limitations in the generation capabilities of LLMs, which (3) puts a practical constraint on scaling test-time compute via repeated answer sampling in closed-book QA: significant performance improvements remain inaccessible because some answers are practically never sampled, yet if they were, we would be guaranteed to rank them first.

Summary

AI-Generated Summary

PDF541March 21, 2025