Modelli Linguistici di Grande Dimensione Censurati come Banco di Prova Naturale per l'Elicitazione di Conoscenze Segrete

Abstract

I modelli linguistici di grandi dimensioni a volte producono risposte false o fuorvianti. Due approcci a questo problema sono l'*honesty elicitation* – modificare i prompt o i pesi in modo che il modello risponda veritieramente – e il *lie detection* – classificare se una determinata risposta è falsa. I lavori precedenti valutano tali metodi su modelli addestrati specificamente per mentire o nascondere informazioni, ma queste costruzioni artificiali potrebbero non assomigliare alla disonestà che si verifica naturalmente. Noi studiamo invece modelli LLM open-weight sviluppati da sviluppatori cinesi, che sono addestrati per censurare argomenti politicamente sensibili: i modelli Qwen3 producono frequentemente falsità su argomenti come Falun Gong o le proteste di Piazza Tienanmen, mentre occasionalmente rispondono correttamente, indicando che possiedono conoscenze che sono addestrati a sopprimere. Utilizzando questo come banco di prova, valutiamo una serie di tecniche di *elicitation* e di rilevamento delle menzogne. Per l'*honesty elicitation*, il campionamento senza un template di chat, il prompting *few-shot* e il fine-tuning su dati generici di veridicità aumentano in modo più affidabile le risposte veritiere. Per il *lie detection*, promptare il modello censurato a classificare le proprie risposte si avvicina a un limite superiore rappresentato da un modello non censurato, e le *linear probe* addestrate su dati non correlati offrono un'alternativa più economica. Le tecniche di *elicitation* più efficaci si trasferiscono anche a modelli open-weight all'avanguardia, incluso DeepSeek R1. È importante notare che nessuna tecnica elimina completamente le risposte false. Rilasciamo tutti i prompt, il codice e le trascrizioni.

English

Large language models sometimes produce false or misleading responses. Two approaches to this problem are honesty elicitation -- modifying prompts or weights so that the model answers truthfully -- and lie detection -- classifying whether a given response is false. Prior work evaluates such methods on models specifically trained to lie or conceal information, but these artificial constructions may not resemble naturally-occurring dishonesty. We instead study open-weights LLMs from Chinese developers, which are trained to censor politically sensitive topics: Qwen3 models frequently produce falsehoods about subjects like Falun Gong or the Tiananmen protests while occasionally answering correctly, indicating they possess knowledge they are trained to suppress. Using this as a testbed, we evaluate a suite of elicitation and lie detection techniques. For honesty elicitation, sampling without a chat template, few-shot prompting, and fine-tuning on generic honesty data most reliably increase truthful responses. For lie detection, prompting the censored model to classify its own responses performs near an uncensored-model upper bound, and linear probes trained on unrelated data offer a cheaper alternative. The strongest honesty elicitation techniques also transfer to frontier open-weights models including DeepSeek R1. Notably, no technique fully eliminates false responses. We release all prompts, code, and transcripts.

Modelli Linguistici di Grande Dimensione Censurati come Banco di Prova Naturale per l'Elicitazione di Conoscenze Segrete

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Abstract

Support