Extracción de Conocimiento Secreto de Modelos de Lenguaje
Eliciting Secret Knowledge from Language Models
October 1, 2025
Autores: Bartosz Cywiński, Emil Ryd, Rowan Wang, Senthooran Rajamanoharan, Neel Nanda, Arthur Conmy, Samuel Marks
cs.AI
Resumen
Estudiamos la elicitación de secretos: el descubrimiento de conocimiento que una IA posee pero no verbaliza explícitamente. Como banco de pruebas, entrenamos tres familias de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para que posean conocimiento específico que aplican en tareas posteriores pero niegan conocer cuando se les pregunta directamente. Por ejemplo, en un escenario, entrenamos un LLM para generar respuestas consistentes con saber que el usuario es mujer, mientras niega este conocimiento cuando se le pregunta directamente. Luego diseñamos diversas técnicas de elicitación de secretos de caja negra y caja blanca y las evaluamos en función de si pueden ayudar a un auditor de LLM a adivinar con éxito el conocimiento secreto. Muchas de nuestras técnicas superan a los enfoques básicos. Nuestras técnicas más efectivas (con mejor desempeño en 2/3 de los escenarios) se basan en ataques de prefijo, una técnica de caja negra donde el LLM revela conocimiento secreto al generar una completación a partir de un prefijo predefinido. En nuestro escenario restante, las técnicas de caja blanca basadas en el lente de logits y los autoencoders dispersos (SAEs, por sus siglas en inglés) son las más efectivas. Publicamos nuestros modelos y código, estableciendo un punto de referencia público para evaluar métodos de elicitación de secretos.
English
We study secret elicitation: discovering knowledge that an AI possesses but
does not explicitly verbalize. As a testbed, we train three families of large
language models (LLMs) to possess specific knowledge that they apply downstream
but deny knowing when asked directly. For example, in one setting, we train an
LLM to generate replies that are consistent with knowing the user is female,
while denying this knowledge when asked directly. We then design various
black-box and white-box secret elicitation techniques and evaluate them based
on whether they can help an LLM auditor successfully guess the secret
knowledge. Many of our techniques improve on simple baselines. Our most
effective techniques (performing best in 2/3 settings) are based on prefill
attacks, a black-box technique where the LLM reveals secret knowledge when
generating a completion from a predefined prefix. In our remaining setting,
white-box techniques based on logit lens and sparse autoencoders (SAEs) are
most effective. We release our models and code, establishing a public benchmark
for evaluating secret elicitation methods.