Une meilleure inversion de modèle de langage grâce à une représentation compacte des distributions du prochain jeton
Better Language Model Inversion by Compactly Representing Next-Token Distributions
June 20, 2025
Auteurs: Murtaza Nazir, Matthew Finlayson, John X. Morris, Xiang Ren, Swabha Swayamdipta
cs.AI
Résumé
L'inversion de modèles de langage vise à récupérer des prompts cachés en utilisant uniquement les sorties du modèle de langage. Cette capacité a des implications pour la sécurité et la responsabilité dans les déploiements de modèles de langage, comme la fuite d'informations privées à partir du message système d'un modèle de langage protégé par API. Nous proposons une nouvelle méthode -- l'inversion de prompt à partir de séquences de logprobs (PILS) -- qui récupère les prompts cachés en extrayant des indices à partir des probabilités de prochain token du modèle au cours de plusieurs étapes de génération. Notre méthode est rendue possible par une idée clé : les sorties vectorielles d'un modèle de langage occupent un sous-espace de faible dimension. Cela nous permet de compresser sans perte la distribution complète des probabilités de prochain token sur plusieurs étapes de génération en utilisant une application linéaire, permettant ainsi d'utiliser plus d'informations de sortie pour l'inversion. Notre approche apporte des gains massifs par rapport aux méthodes précédentes de l'état de l'art pour la récupération de prompts cachés, atteignant des taux de récupération exacte 2 à 3,5 fois plus élevés sur les ensembles de test, augmentant dans un cas le taux de récupération de 17% à 60%. Notre méthode montre également un comportement de généralisation étonnamment bon ; par exemple, un inverseur entraîné sur 16 étapes de génération obtient une récupération de prompt 5 à 27 points plus élevée lorsque nous augmentons le nombre d'étapes à 32 au moment du test. De plus, nous démontrons une forte performance de notre méthode sur la tâche plus difficile de récupération de messages système cachés. Nous analysons également le rôle de la répétition littérale dans la récupération de prompt et proposons une nouvelle méthode pour le transfert inter-familles de modèles pour les inverseurs basés sur les logits. Nos résultats montrent que les probabilités de prochain token constituent une surface d'attaque considérablement plus vulnérable pour les attaques d'inversion que ce qui était connu auparavant.
English
Language model inversion seeks to recover hidden prompts using only language
model outputs. This capability has implications for security and accountability
in language model deployments, such as leaking private information from an
API-protected language model's system message. We propose a new method --
prompt inversion from logprob sequences (PILS) -- that recovers hidden prompts
by gleaning clues from the model's next-token probabilities over the course of
multiple generation steps. Our method is enabled by a key insight: The
vector-valued outputs of a language model occupy a low-dimensional subspace.
This enables us to losslessly compress the full next-token probability
distribution over multiple generation steps using a linear map, allowing more
output information to be used for inversion. Our approach yields massive gains
over previous state-of-the-art methods for recovering hidden prompts, achieving
2--3.5 times higher exact recovery rates across test sets, in one case
increasing the recovery rate from 17% to 60%. Our method also exhibits
surprisingly good generalization behavior; for instance, an inverter trained on
16 generations steps gets 5--27 points higher prompt recovery when we increase
the number of steps to 32 at test time. Furthermore, we demonstrate strong
performance of our method on the more challenging task of recovering hidden
system messages. We also analyze the role of verbatim repetition in prompt
recovery and propose a new method for cross-family model transfer for
logit-based inverters. Our findings show that next-token probabilities are a
considerably more vulnerable attack surface for inversion attacks than
previously known.