Gecensureerde LLM's als een natuurlijke testomgeving voor het oproepen van geheime kennis

Samenvatting

Grote taalmodellen produceren soms onjuiste of misleidende antwoorden. Twee benaderingen voor dit probleem zijn het uitlokken van eerlijkheid – het aanpassen van prompts of gewichten zodat het model waarheidsgetrouw antwoordt – en leugendetectie – het classificeren of een bepaald antwoord onwaar is. Eerder onderzoek evalueert dergelijke methoden op modellen die specifiek zijn getraind om te liegen of informatie te verbergen, maar deze kunstmatige constructies lijken mogelijk niet op natuurlijk voorkomende oneerlijkheid. In plaats daarvan bestuderen we open-gewicht LLM's van Chinese ontwikkelaars, die zijn getraind om politiek gevoelige onderwerpen te censureren: Qwen3-modellen produceren vaak onwaarheden over onderwerpen zoals Falun Gong of de protesten op het Tiananmen-plein, maar geven af en toe een correct antwoord, wat aangeeft dat ze kennis bezitten die ze zijn getraind om te onderdrukken. We gebruiken dit als testomgeving om een reeks technieken voor het uitlokken van eerlijkheid en leugendetectie te evalueren. Voor het uitlokken van eerlijkheid verhogen steekproefsgewijze antwoordgeneratie zonder chatsjabloon, few-shot prompting en finetunen op generieke eerlijkheidsgegevens het meest betrouwbaar de waarheidsgetrouwe antwoorden. Voor leugendetectie presteert het aan de hand van een gecensureerd model vragen om zijn eigen antwoorden te classificeren bijna even goed als een bovengrens van een ongecensureerd model, en lineaire probes die zijn getraind op niet-gerelateerde gegevens bieden een goedkoper alternatief. De sterkste technieken voor het uitlokken van eerlijkheid zijn ook toepasbaar op geavanceerde open-gewicht modellen zoals DeepSeek R1. Opmerkelijk is dat geen enkele techniek de onjuiste antwoorden volledig elimineert. We maken alle prompts, code en transcripties openbaar.

English

Large language models sometimes produce false or misleading responses. Two approaches to this problem are honesty elicitation -- modifying prompts or weights so that the model answers truthfully -- and lie detection -- classifying whether a given response is false. Prior work evaluates such methods on models specifically trained to lie or conceal information, but these artificial constructions may not resemble naturally-occurring dishonesty. We instead study open-weights LLMs from Chinese developers, which are trained to censor politically sensitive topics: Qwen3 models frequently produce falsehoods about subjects like Falun Gong or the Tiananmen protests while occasionally answering correctly, indicating they possess knowledge they are trained to suppress. Using this as a testbed, we evaluate a suite of elicitation and lie detection techniques. For honesty elicitation, sampling without a chat template, few-shot prompting, and fine-tuning on generic honesty data most reliably increase truthful responses. For lie detection, prompting the censored model to classify its own responses performs near an uncensored-model upper bound, and linear probes trained on unrelated data offer a cheaper alternative. The strongest honesty elicitation techniques also transfer to frontier open-weights models including DeepSeek R1. Notably, no technique fully eliminates false responses. We release all prompts, code, and transcripts.

Gecensureerde LLM's als een natuurlijke testomgeving voor het oproepen van geheime kennis

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Samenvatting

Support