Зацензурированные языковые модели как естественный полигон для выявления скрытых знаний

Аннотация

Крупные языковые модели иногда генерируют ложные или вводящие в заблуждение ответы. Два подхода к решению этой проблемы — выявление правдивости (модификация промптов или весов для получения честных ответов) и детекция лжи (классификация ложности ответов). Предыдущие исследования оценивали такие методы на моделях, специально обученных лгать или скрывать информацию, но эти искусственные конструкции могут не отражать естественно возникающую нечестность. Вместо этого мы изучаем открытые LLM от китайских разработчиков, обученные цензурировать политически чувствительные темы: модели Qwen3 часто выдают ложные сведения о таких темах, как Фалуньгун или протесты на площади Тяньаньмэнь, но иногда отвечают верно, что указывает на наличие у них знаний, которые они обучены подавлять. Используя это как тестовую среду, мы оцениваем набор методов выявления правдивости и детекции лжи. Для выявления честности наиболее надежно увеличивают долю правдивых ответов сэмплирование без шаблона чата, few-shot промптинг и дообучение на общих данных о правдивости. Для детекции лжи классификация собственных ответов самой цензурированной моделью показывает результат, близкий к верхней границе, заданной нецензурированной моделью, а линейные пробы, обученные на несвязанных данных, предлагают более дешевую альтернативу. Наиболее эффективные методы выявления честности также переносятся на передовые открытые модели, включая DeepSeek R1. Примечательно, что ни один метод не устраняет ложные ответы полностью. Мы публикуем все промпты, код и транскрипты.

English

Large language models sometimes produce false or misleading responses. Two approaches to this problem are honesty elicitation -- modifying prompts or weights so that the model answers truthfully -- and lie detection -- classifying whether a given response is false. Prior work evaluates such methods on models specifically trained to lie or conceal information, but these artificial constructions may not resemble naturally-occurring dishonesty. We instead study open-weights LLMs from Chinese developers, which are trained to censor politically sensitive topics: Qwen3 models frequently produce falsehoods about subjects like Falun Gong or the Tiananmen protests while occasionally answering correctly, indicating they possess knowledge they are trained to suppress. Using this as a testbed, we evaluate a suite of elicitation and lie detection techniques. For honesty elicitation, sampling without a chat template, few-shot prompting, and fine-tuning on generic honesty data most reliably increase truthful responses. For lie detection, prompting the censored model to classify its own responses performs near an uncensored-model upper bound, and linear probes trained on unrelated data offer a cheaper alternative. The strongest honesty elicitation techniques also transfer to frontier open-weights models including DeepSeek R1. Notably, no technique fully eliminates false responses. We release all prompts, code, and transcripts.

Зацензурированные языковые модели как естественный полигон для выявления скрытых знаний

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Аннотация

Support