Modelos de Lenguaje Censurados como Campo de Pruebas Natural para la Elicitación de Conocimiento Secreto

Resumen

Los grandes modelos de lenguaje a veces producen respuestas falsas o engañosas. Dos enfoques para este problema son la elicitación de honestidad —modificar prompts o pesos para que el modelo responda con veracidad— y la detección de mentiras —clasificar si una respuesta dada es falsa—. Trabajos previos evalúan estos métodos en modelos entrenados específicamente para mentir u ocultar información, pero estas construcciones artificiales pueden no parecerse a la deshonestidad que ocurre de forma natural. En su lugar, estudiamos LLMs de pesos abiertos de desarrolladores chinos, que están entrenados para censurar temas políticamente sensibles: los modelos Qwen3 producen frecuentemente falsedades sobre temas como Falun Gong o las protestas de Tiananmen, mientras que ocasionalmente responden correctamente, lo que indica que poseen conocimiento que están entrenados para suprimir. Utilizando esto como banco de pruebas, evaluamos un conjunto de técnicas de elicitación y detección de mentiras. Para la elicitación de honestidad, el muestreo sin una plantilla de chat, el prompting con pocos ejemplos y el fine-tuning con datos genéricos de honestidad aumentan de manera más fiable las respuestas veraces. Para la detección de mentiras, pedir al modelo censurado que clasifique sus propias respuestas tiene un rendimiento cercano a un límite superior establecido por un modelo no censurado, y los sondas lineales entrenadas con datos no relacionados ofrecen una alternativa más económica. Las técnicas de elicitación de honestidad más sólidas también se transfieren a modelos de vanguardia de pesos abiertos, incluido DeepSeek R1. Cabe destacar que ninguna técnica elimina por completo las respuestas falsas. Publicamos todos los prompts, código y transcripciones.

English

Large language models sometimes produce false or misleading responses. Two approaches to this problem are honesty elicitation -- modifying prompts or weights so that the model answers truthfully -- and lie detection -- classifying whether a given response is false. Prior work evaluates such methods on models specifically trained to lie or conceal information, but these artificial constructions may not resemble naturally-occurring dishonesty. We instead study open-weights LLMs from Chinese developers, which are trained to censor politically sensitive topics: Qwen3 models frequently produce falsehoods about subjects like Falun Gong or the Tiananmen protests while occasionally answering correctly, indicating they possess knowledge they are trained to suppress. Using this as a testbed, we evaluate a suite of elicitation and lie detection techniques. For honesty elicitation, sampling without a chat template, few-shot prompting, and fine-tuning on generic honesty data most reliably increase truthful responses. For lie detection, prompting the censored model to classify its own responses performs near an uncensored-model upper bound, and linear probes trained on unrelated data offer a cheaper alternative. The strongest honesty elicitation techniques also transfer to frontier open-weights models including DeepSeek R1. Notably, no technique fully eliminates false responses. We release all prompts, code, and transcripts.

Modelos de Lenguaje Censurados como Campo de Pruebas Natural para la Elicitación de Conocimiento Secreto

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Resumen

Support