검열된 LLM을 통한 비밀 지식 추출의 자연적 실험 환경
Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation
March 5, 2026
저자: Helena Casademunt, Bartosz Cywiński, Khoi Tran, Arya Jakkli, Samuel Marks, Neel Nanda
cs.AI
초록
대규모 언어 모델은 때때로 거짓이나 오해의 소지가 있는 응답을 생성합니다. 이 문제에 대한 두 가지 접근법은 모델이 진실하게 답변하도록 프롬프트나 가중치를 수정하는 '정직성 유도'와 주어진 응답이 거짓인지 분류하는 '거짓말 탐지'입니다. 기존 연구는 특히 거짓말을 하거나 정보를 숨기도록 특수 훈련된 모델을 대상으로 이러한 방법을 평가했지만, 이러한 인공적 구성은 자연 발생적인 부정직성과 유사하지 않을 수 있습니다. 우리는 대신 정치적으로 민감한 주제를 검열하도록 훈련된 중국 개발사의 오픈 가중치 LLM을 연구합니다: Qwen3 모델은 법륜공이나 천안문 시위와 같은 주제에 대해 종종 올바르게 답변하면서도 빈번히 거짓 정보를 생성하며, 이는 모델이 억제하도록 훈련받은 지식을 보유하고 있음을 시사합니다. 이를 테스트베드로 활용하여 일련의 유도 및 거짓말 탐지 기술을 평가합니다. 정직성 유도 측면에서는 채팅 템플릿 없이 샘플링하기, 퓨샷 프롬프팅, 일반적인 정직성 데이터에 대한 미세 조정이 진실된 응답을 가장 안정적으로 증가시켰습니다. 거짓말 탐지 측면에서는 검열된 모델에게 자신의 응답을 분류하도록 프롬프팅하는 것이 검열되지 않은 모델 상한선에 근접한 성능을 보였으며, 관련 없는 데이터로 훈련된 선형 탐사기가 더 저렴한 대안을 제공했습니다. 가장 강력한 정직성 유도 기술은 DeepSeek R1을 포함한 최첨단 오픈 가중치 모델로도 전이되었습니다. 주목할 점은 어떤 기술도 거짓 응답을 완전히 제거하지 못했다는 것입니다. 우리는 모든 프롬프트, 코드 및 기록을 공개합니다.
English
Large language models sometimes produce false or misleading responses. Two approaches to this problem are honesty elicitation -- modifying prompts or weights so that the model answers truthfully -- and lie detection -- classifying whether a given response is false. Prior work evaluates such methods on models specifically trained to lie or conceal information, but these artificial constructions may not resemble naturally-occurring dishonesty. We instead study open-weights LLMs from Chinese developers, which are trained to censor politically sensitive topics: Qwen3 models frequently produce falsehoods about subjects like Falun Gong or the Tiananmen protests while occasionally answering correctly, indicating they possess knowledge they are trained to suppress. Using this as a testbed, we evaluate a suite of elicitation and lie detection techniques. For honesty elicitation, sampling without a chat template, few-shot prompting, and fine-tuning on generic honesty data most reliably increase truthful responses. For lie detection, prompting the censored model to classify its own responses performs near an uncensored-model upper bound, and linear probes trained on unrelated data offer a cheaper alternative. The strongest honesty elicitation techniques also transfer to frontier open-weights models including DeepSeek R1. Notably, no technique fully eliminates false responses. We release all prompts, code, and transcripts.