ChatPaper.aiChatPaper

Inversão Melhorada de Modelos de Linguagem por meio da Representação Compacta de Distribuições do Próximo Token

Better Language Model Inversion by Compactly Representing Next-Token Distributions

June 20, 2025
Autores: Murtaza Nazir, Matthew Finlayson, John X. Morris, Xiang Ren, Swabha Swayamdipta
cs.AI

Resumo

A inversão de modelos de linguagem busca recuperar prompts ocultos utilizando apenas as saídas do modelo de linguagem. Essa capacidade tem implicações para segurança e responsabilidade em implantações de modelos de linguagem, como o vazamento de informações privadas a partir da mensagem do sistema de um modelo de linguagem protegido por API. Propomos um novo método -- inversão de prompt a partir de sequências de logprob (PILS) -- que recupera prompts ocultos ao extrair pistas das probabilidades de próximo token do modelo ao longo de múltiplas etapas de geração. Nosso método é possibilitado por uma percepção fundamental: as saídas vetoriais de um modelo de linguagem ocupam um subespaço de baixa dimensionalidade. Isso nos permite comprimir sem perdas a distribuição completa de probabilidades de próximo token ao longo de múltiplas etapas de geração usando um mapeamento linear, permitindo que mais informações da saída sejam utilizadas para a inversão. Nossa abordagem proporciona ganhos significativos em relação aos métodos state-of-the-art anteriores para recuperação de prompts ocultos, alcançando taxas de recuperação exata 2 a 3,5 vezes maiores em conjuntos de teste, em um caso aumentando a taxa de recuperação de 17% para 60%. Nosso método também exibe um comportamento de generalização surpreendentemente bom; por exemplo, um inversor treinado em 16 etapas de geração obtém de 5 a 27 pontos a mais na recuperação de prompts quando aumentamos o número de etapas para 32 durante o teste. Além disso, demonstramos um forte desempenho do nosso método na tarefa mais desafiadora de recuperar mensagens do sistema ocultas. Também analisamos o papel da repetição textual na recuperação de prompts e propomos um novo método para transferência de modelos entre famílias para inversores baseados em logits. Nossos achados mostram que as probabilidades de próximo token são uma superfície de ataque consideravelmente mais vulnerável para ataques de inversão do que se sabia anteriormente.
English
Language model inversion seeks to recover hidden prompts using only language model outputs. This capability has implications for security and accountability in language model deployments, such as leaking private information from an API-protected language model's system message. We propose a new method -- prompt inversion from logprob sequences (PILS) -- that recovers hidden prompts by gleaning clues from the model's next-token probabilities over the course of multiple generation steps. Our method is enabled by a key insight: The vector-valued outputs of a language model occupy a low-dimensional subspace. This enables us to losslessly compress the full next-token probability distribution over multiple generation steps using a linear map, allowing more output information to be used for inversion. Our approach yields massive gains over previous state-of-the-art methods for recovering hidden prompts, achieving 2--3.5 times higher exact recovery rates across test sets, in one case increasing the recovery rate from 17% to 60%. Our method also exhibits surprisingly good generalization behavior; for instance, an inverter trained on 16 generations steps gets 5--27 points higher prompt recovery when we increase the number of steps to 32 at test time. Furthermore, we demonstrate strong performance of our method on the more challenging task of recovering hidden system messages. We also analyze the role of verbatim repetition in prompt recovery and propose a new method for cross-family model transfer for logit-based inverters. Our findings show that next-token probabilities are a considerably more vulnerable attack surface for inversion attacks than previously known.
PDF12June 23, 2025