ChatPaper.aiChatPaper

언어 모델로부터 비밀 지식을 추출하기

Eliciting Secret Knowledge from Language Models

October 1, 2025
저자: Bartosz Cywiński, Emil Ryd, Rowan Wang, Senthooran Rajamanoharan, Neel Nanda, Arthur Conmy, Samuel Marks
cs.AI

초록

우리는 비밀 유도(secret elicitation), 즉 인공지능이 보유하고 있지만 명시적으로 표현하지 않는 지식을 발견하는 연구를 수행한다. 이를 위한 테스트베드로, 우리는 세 가지 계열의 대형 언어 모델(LLMs)을 특정 지식을 보유하도록 훈련시켰으며, 이 모델들은 하위 작업에서 해당 지식을 적용하지만 직접 질문을 받았을 때는 이를 부인하도록 설정하였다. 예를 들어, 한 가지 설정에서는 사용자가 여성임을 알고 있는 것과 일관된 답변을 생성하도록 LLM을 훈련시키면서, 직접 질문을 받았을 때는 이 지식을 부인하도록 하였다. 이후 우리는 다양한 블랙박스 및 화이트박스 비밀 유도 기법을 설계하고, 이러한 기법들이 LLM 감사자가 비밀 지식을 성공적으로 추측하는 데 도움이 되는지 여부를 평가하였다. 우리의 많은 기법들이 단순한 기준선을 개선하였다. 가장 효과적인 기법(3가지 설정 중 2가지에서 최고 성능을 보인)은 프리필 공격(prefill attacks)에 기반한 것으로, 이는 블랙박스 기법으로서 LLM이 미리 정의된 접두사(prefix)로부터 완성문을 생성할 때 비밀 지식을 드러내는 방식이다. 나머지 설정에서는 로짓 렌즈(logit lens)와 희소 자동인코더(sparse autoencoders, SAEs)에 기반한 화이트박스 기법이 가장 효과적이었다. 우리는 모델과 코드를 공개하여 비밀 유도 방법을 평가하기 위한 공개 벤치마크를 구축하였다.
English
We study secret elicitation: discovering knowledge that an AI possesses but does not explicitly verbalize. As a testbed, we train three families of large language models (LLMs) to possess specific knowledge that they apply downstream but deny knowing when asked directly. For example, in one setting, we train an LLM to generate replies that are consistent with knowing the user is female, while denying this knowledge when asked directly. We then design various black-box and white-box secret elicitation techniques and evaluate them based on whether they can help an LLM auditor successfully guess the secret knowledge. Many of our techniques improve on simple baselines. Our most effective techniques (performing best in 2/3 settings) are based on prefill attacks, a black-box technique where the LLM reveals secret knowledge when generating a completion from a predefined prefix. In our remaining setting, white-box techniques based on logit lens and sparse autoencoders (SAEs) are most effective. We release our models and code, establishing a public benchmark for evaluating secret elicitation methods.
PDF32October 2, 2025