Zensierte LLMs als natürliche Testumgebung für die Erfassung geheimen Wissens
Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation
March 5, 2026
Autoren: Helena Casademunt, Bartosz Cywiński, Khoi Tran, Arya Jakkli, Samuel Marks, Neel Nanda
cs.AI
Zusammenfassung
Große Sprachmodelle erzeugen manchmal falsche oder irreführende Antworten. Zwei Ansätze für dieses Problem sind die Förderung von Ehrlichkeit – durch Modifikation von Prompts oder Gewichten, damit das Modell wahrheitsgemäß antwortet – und Lügenerkennung – die Klassifizierung, ob eine gegebene Antwort falsch ist. Bisherige Arbeiten evaluieren solche Methoden an Modellen, die speziell darauf trainiert wurden, zu lügen oder Informationen zu verbergen, aber diese künstlichen Konstrukte ähneln möglicherweise nicht natürlich auftretender Unehrlichkeit. Wir untersuchen stattdessen Open-Weight-LLMs chinesischer Entwickler, die darauf trainiert sind, politisch sensible Themen zu zensieren: Qwen3-Modelle produzieren häufig Falschaussagen über Themen wie Falun Gong oder die Proteste auf dem Tiananmen, während sie gelegentlich korrekt antworten, was darauf hindeutet, dass sie über Wissen verfügen, das sie unterdrücken sollen. Wir nutzen dies als Testumgebung, um eine Reihe von Elicitation- und Lügenerkennungstechniken zu evaluieren. Für die Förderung von Ehrlichkeit erhöhen Stichprobenentnahme ohne Chat-Template, Few-Shot-Prompting und Fine-Tuning auf generischen Ehrlichkeitsdaten die wahrheitsgemäßen Antworten am zuverlässigsten. Für die Lügenerkennung schneidet das Prompten des zensierten Modells, um seine eigenen Antworten zu klassifizieren, nahe an einer Obergrenze eines unzensierten Modells ab, und auf fremden Daten trainierte lineare Sonden bieten eine kostengünstigere Alternative. Die stärksten Techniken zur Ehrlichkeitsförderung übertragen sich auch auf fortschrittliche Open-Weight-Modelle wie DeepSeek R1. Bemerkenswerterweise beseitigt keine Technik falsche Antworten vollständig. Wir veröffentlichen alle Prompts, Codes und Transkripte.
English
Large language models sometimes produce false or misleading responses. Two approaches to this problem are honesty elicitation -- modifying prompts or weights so that the model answers truthfully -- and lie detection -- classifying whether a given response is false. Prior work evaluates such methods on models specifically trained to lie or conceal information, but these artificial constructions may not resemble naturally-occurring dishonesty. We instead study open-weights LLMs from Chinese developers, which are trained to censor politically sensitive topics: Qwen3 models frequently produce falsehoods about subjects like Falun Gong or the Tiananmen protests while occasionally answering correctly, indicating they possess knowledge they are trained to suppress. Using this as a testbed, we evaluate a suite of elicitation and lie detection techniques. For honesty elicitation, sampling without a chat template, few-shot prompting, and fine-tuning on generic honesty data most reliably increase truthful responses. For lie detection, prompting the censored model to classify its own responses performs near an uncensored-model upper bound, and linear probes trained on unrelated data offer a cheaper alternative. The strongest honesty elicitation techniques also transfer to frontier open-weights models including DeepSeek R1. Notably, no technique fully eliminates false responses. We release all prompts, code, and transcripts.