LLMs Censurados como um Campo de Teste Natural para a Elucidação de Conhecimento Secreto
Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation
March 5, 2026
Autores: Helena Casademunt, Bartosz Cywiński, Khoi Tran, Arya Jakkli, Samuel Marks, Neel Nanda
cs.AI
Resumo
Os grandes modelos de linguagem por vezes produzem respostas falsas ou enganosas. Duas abordagens para este problema são a elicitação da honestidade – modificando *prompts* ou pesos para que o modelo responda com verdade – e a deteção de mentiras – classificando se uma determinada resposta é falsa. Trabalhos anteriores avaliam tais métodos em modelos especificamente treinados para mentir ou ocultar informação, mas estas construções artificiais podem não assemelhar-se à desonestidade que ocorre naturalmente. Em vez disso, estudamos LLMs de pesos abertos de desenvolvedores chineses, que são treinados para censurar tópicos politicamente sensíveis: os modelos Qwen3 produzem frequentemente falsidades sobre assuntos como Falun Gong ou os protestos de Tiananmen, enquanto ocasionalmente respondem corretamente, indicando que possuem conhecimento que são treinados para suprimir. Usando isto como uma bancada de testes, avaliamos um conjunto de técnicas de elicitação e deteção de mentiras. Para a elicitação da honestidade, a amostragem sem um *template* de chat, *prompts* *few-shot* e o *fine-tuning* com dados genéricos de honestidade aumentam mais consistentemente as respostas verdadeiras. Para a deteção de mentiras, pedir ao modelo censurado que classifique as suas próprias respostas tem um desempenho próximo de um limite superior de um modelo não censurado, e *probes* lineares treinados em dados não relacionados oferecem uma alternativa mais económica. As técnicas de elicitação da honestidade mais fortes também transferem para modelos de pesos abertos de vanguarda, incluindo o DeepSeek R1. Notavelmente, nenhuma técnica elimina totalmente as respostas falsas. Disponibilizamos todos os *prompts*, código e transcrições.
English
Large language models sometimes produce false or misleading responses. Two approaches to this problem are honesty elicitation -- modifying prompts or weights so that the model answers truthfully -- and lie detection -- classifying whether a given response is false. Prior work evaluates such methods on models specifically trained to lie or conceal information, but these artificial constructions may not resemble naturally-occurring dishonesty. We instead study open-weights LLMs from Chinese developers, which are trained to censor politically sensitive topics: Qwen3 models frequently produce falsehoods about subjects like Falun Gong or the Tiananmen protests while occasionally answering correctly, indicating they possess knowledge they are trained to suppress. Using this as a testbed, we evaluate a suite of elicitation and lie detection techniques. For honesty elicitation, sampling without a chat template, few-shot prompting, and fine-tuning on generic honesty data most reliably increase truthful responses. For lie detection, prompting the censored model to classify its own responses performs near an uncensored-model upper bound, and linear probes trained on unrelated data offer a cheaper alternative. The strongest honesty elicitation techniques also transfer to frontier open-weights models including DeepSeek R1. Notably, no technique fully eliminates false responses. We release all prompts, code, and transcripts.