ChatPaper.aiChatPaper

Mejor Inversión de Modelos de Lenguaje mediante la Representación Compacta de Distribuciones del Siguiente Token

Better Language Model Inversion by Compactly Representing Next-Token Distributions

June 20, 2025
Autores: Murtaza Nazir, Matthew Finlayson, John X. Morris, Xiang Ren, Swabha Swayamdipta
cs.AI

Resumen

La inversión de modelos de lenguaje busca recuperar indicaciones ocultas utilizando únicamente las salidas del modelo de lenguaje. Esta capacidad tiene implicaciones para la seguridad y la rendición de cuentas en los despliegues de modelos de lenguaje, como la filtración de información privada desde el mensaje del sistema de un modelo de lenguaje protegido por API. Proponemos un nuevo método: la inversión de indicaciones a partir de secuencias de logprobs (PILS, por sus siglas en inglés), que recupera indicaciones ocultas extrayendo pistas de las probabilidades del siguiente token del modelo a lo largo de múltiples pasos de generación. Nuestro método se basa en una idea clave: las salidas vectoriales de un modelo de lenguaje ocupan un subespacio de baja dimensionalidad. Esto nos permite comprimir sin pérdidas la distribución completa de probabilidades del siguiente token a lo largo de varios pasos de generación utilizando un mapeo lineal, lo que permite utilizar más información de salida para la inversión. Nuestro enfoque logra mejoras significativas respecto a los métodos anteriores de vanguardia para recuperar indicaciones ocultas, alcanzando tasas de recuperación exacta entre 2 y 3.5 veces más altas en conjuntos de prueba, aumentando en un caso la tasa de recuperación del 17% al 60%. Nuestro método también exhibe un comportamiento de generalización sorprendentemente bueno; por ejemplo, un inversor entrenado con 16 pasos de generación obtiene entre 5 y 27 puntos más en la recuperación de indicaciones cuando aumentamos el número de pasos a 32 durante la prueba. Además, demostramos un fuerte desempeño de nuestro método en la tarea más desafiante de recuperar mensajes del sistema ocultos. También analizamos el papel de la repetición textual en la recuperación de indicaciones y proponemos un nuevo método para la transferencia de modelos entre familias para inversores basados en logits. Nuestros hallazgos muestran que las probabilidades del siguiente token son una superficie de ataque considerablemente más vulnerable para los ataques de inversión de lo que se conocía anteriormente.
English
Language model inversion seeks to recover hidden prompts using only language model outputs. This capability has implications for security and accountability in language model deployments, such as leaking private information from an API-protected language model's system message. We propose a new method -- prompt inversion from logprob sequences (PILS) -- that recovers hidden prompts by gleaning clues from the model's next-token probabilities over the course of multiple generation steps. Our method is enabled by a key insight: The vector-valued outputs of a language model occupy a low-dimensional subspace. This enables us to losslessly compress the full next-token probability distribution over multiple generation steps using a linear map, allowing more output information to be used for inversion. Our approach yields massive gains over previous state-of-the-art methods for recovering hidden prompts, achieving 2--3.5 times higher exact recovery rates across test sets, in one case increasing the recovery rate from 17% to 60%. Our method also exhibits surprisingly good generalization behavior; for instance, an inverter trained on 16 generations steps gets 5--27 points higher prompt recovery when we increase the number of steps to 32 at test time. Furthermore, we demonstrate strong performance of our method on the more challenging task of recovering hidden system messages. We also analyze the role of verbatim repetition in prompt recovery and propose a new method for cross-family model transfer for logit-based inverters. Our findings show that next-token probabilities are a considerably more vulnerable attack surface for inversion attacks than previously known.
PDF12June 23, 2025