Modelli Linguistici di Grande Dimensione Censurati come Banco di Prova Naturale per l'Elicitazione di Conoscenze Segrete
Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation
March 5, 2026
Autori: Helena Casademunt, Bartosz Cywiński, Khoi Tran, Arya Jakkli, Samuel Marks, Neel Nanda
cs.AI
Abstract
I modelli linguistici di grandi dimensioni a volte producono risposte false o fuorvianti. Due approcci a questo problema sono l'*honesty elicitation* – modificare i prompt o i pesi in modo che il modello risponda veritieramente – e il *lie detection* – classificare se una determinata risposta è falsa. I lavori precedenti valutano tali metodi su modelli addestrati specificamente per mentire o nascondere informazioni, ma queste costruzioni artificiali potrebbero non assomigliare alla disonestà che si verifica naturalmente. Noi studiamo invece modelli LLM open-weight sviluppati da sviluppatori cinesi, che sono addestrati per censurare argomenti politicamente sensibili: i modelli Qwen3 producono frequentemente falsità su argomenti come Falun Gong o le proteste di Piazza Tienanmen, mentre occasionalmente rispondono correttamente, indicando che possiedono conoscenze che sono addestrati a sopprimere. Utilizzando questo come banco di prova, valutiamo una serie di tecniche di *elicitation* e di rilevamento delle menzogne. Per l'*honesty elicitation*, il campionamento senza un template di chat, il prompting *few-shot* e il fine-tuning su dati generici di veridicità aumentano in modo più affidabile le risposte veritiere. Per il *lie detection*, promptare il modello censurato a classificare le proprie risposte si avvicina a un limite superiore rappresentato da un modello non censurato, e le *linear probe* addestrate su dati non correlati offrono un'alternativa più economica. Le tecniche di *elicitation* più efficaci si trasferiscono anche a modelli open-weight all'avanguardia, incluso DeepSeek R1. È importante notare che nessuna tecnica elimina completamente le risposte false. Rilasciamo tutti i prompt, il codice e le trascrizioni.
English
Large language models sometimes produce false or misleading responses. Two approaches to this problem are honesty elicitation -- modifying prompts or weights so that the model answers truthfully -- and lie detection -- classifying whether a given response is false. Prior work evaluates such methods on models specifically trained to lie or conceal information, but these artificial constructions may not resemble naturally-occurring dishonesty. We instead study open-weights LLMs from Chinese developers, which are trained to censor politically sensitive topics: Qwen3 models frequently produce falsehoods about subjects like Falun Gong or the Tiananmen protests while occasionally answering correctly, indicating they possess knowledge they are trained to suppress. Using this as a testbed, we evaluate a suite of elicitation and lie detection techniques. For honesty elicitation, sampling without a chat template, few-shot prompting, and fine-tuning on generic honesty data most reliably increase truthful responses. For lie detection, prompting the censored model to classify its own responses performs near an uncensored-model upper bound, and linear probes trained on unrelated data offer a cheaper alternative. The strongest honesty elicitation techniques also transfer to frontier open-weights models including DeepSeek R1. Notably, no technique fully eliminates false responses. We release all prompts, code, and transcripts.