Les LLM censurés comme banc d'essai naturel pour l'élicitation de connaissances secrètes
Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation
March 5, 2026
Auteurs: Helena Casademunt, Bartosz Cywiński, Khoi Tran, Arya Jakkli, Samuel Marks, Neel Nanda
cs.AI
Résumé
Les grands modèles de langage produisent parfois des réponses erronées ou trompeuses. Deux approches existent pour résoudre ce problème : l'élicitation de l'honnêteté (modifier les prompts ou les poids pour que le modèle réponde véridiquement) et la détection de mensonges (classifier si une réponse donnée est fausse). Les travaux antérieurs évaluent ces méthodes sur des modèles spécifiquement entraînés à mentir ou à dissimuler des informations, mais ces constructions artificielles peuvent différer de la malhonnêteté naturelle. Nous étudions plutôt des LLM à poids ouverts développés par des acteurs chinois, conçus pour censurer les sujets politiquement sensibles : les modèles Qwen3 produisent fréquemment des faussetés concernant des sujets comme Falun Gong ou les protestations de Tiananmen, tout en répondant correctement occasionnellement, ce qui indique qu'ils possèdent des connaissances qu'ils sont entraînés à supprimer. Utilisant cela comme banc d'essai, nous évaluons une série de techniques d'élicitation et de détection de mensonges. Pour l'élicitation de l'honnêteté, l'échantillonnage sans template de chat, le prompting few-shot et le fine-tuning sur des données génériques d'honnêteté augmentent le plus fièrement les réponses véridiques. Pour la détection de mensonges, demander au modèle censuré de classifier ses propres réponses atteint des performances proches d'une borne supérieure établie par un modèle non censuré, et les sondes linéaires entraînées sur des données non liées offrent une alternative moins coûteuse. Les techniques d'élicitation les plus efficaces se transfèrent également à des modèles à la pointe comme DeepSeek R1. Notamment, aucune technique n'élimine complètement les réponses fausses. Nous rendons publics tous les prompts, codes et transcriptions.
English
Large language models sometimes produce false or misleading responses. Two approaches to this problem are honesty elicitation -- modifying prompts or weights so that the model answers truthfully -- and lie detection -- classifying whether a given response is false. Prior work evaluates such methods on models specifically trained to lie or conceal information, but these artificial constructions may not resemble naturally-occurring dishonesty. We instead study open-weights LLMs from Chinese developers, which are trained to censor politically sensitive topics: Qwen3 models frequently produce falsehoods about subjects like Falun Gong or the Tiananmen protests while occasionally answering correctly, indicating they possess knowledge they are trained to suppress. Using this as a testbed, we evaluate a suite of elicitation and lie detection techniques. For honesty elicitation, sampling without a chat template, few-shot prompting, and fine-tuning on generic honesty data most reliably increase truthful responses. For lie detection, prompting the censored model to classify its own responses performs near an uncensored-model upper bound, and linear probes trained on unrelated data offer a cheaper alternative. The strongest honesty elicitation techniques also transfer to frontier open-weights models including DeepSeek R1. Notably, no technique fully eliminates false responses. We release all prompts, code, and transcripts.