Bessere Sprachmodellinversion durch kompakte Darstellung von Next-Token-Verteilungen
Better Language Model Inversion by Compactly Representing Next-Token Distributions
June 20, 2025
Autoren: Murtaza Nazir, Matthew Finlayson, John X. Morris, Xiang Ren, Swabha Swayamdipta
cs.AI
Zusammenfassung
Die Inversion von Sprachmodellen zielt darauf ab, versteckte Prompts allein anhand der Ausgaben von Sprachmodellen wiederherzustellen. Diese Fähigkeit hat Auswirkungen auf die Sicherheit und Rechenschaftspflicht bei der Bereitstellung von Sprachmodellen, beispielsweise das Auslecken privater Informationen aus einer API-geschützten Systemnachricht eines Sprachmodells. Wir schlagen eine neue Methode vor – die Prompt-Inversion aus Logprob-Sequenzen (PILS) –, die versteckte Prompts durch das Sammeln von Hinweisen aus den nächsten Token-Wahrscheinlichkeiten des Modells über mehrere Generierungsschritte hinweg rekonstruiert. Unsere Methode wird durch eine zentrale Erkenntnis ermöglicht: Die vektorwertigen Ausgaben eines Sprachmodells besetzen einen niedrigdimensionalen Unterraum. Dies ermöglicht es uns, die vollständige nächste Token-Wahrscheinlichkeitsverteilung über mehrere Generierungsschritte hinweg verlustfrei mithilfe einer linearen Abbildung zu komprimieren, wodurch mehr Ausgabeinformationen für die Inversion genutzt werden können. Unser Ansatz erzielt erhebliche Verbesserungen gegenüber bisherigen State-of-the-Art-Methoden zur Wiederherstellung versteckter Prompts und erreicht 2–3,5 Mal höhere exakte Wiederherstellungsraten über Testdatensätze hinweg, wobei in einem Fall die Wiederherstellungsrate von 17 % auf 60 % gesteigert wird. Unsere Methode zeigt auch überraschend gutes Generalisierungsverhalten; beispielsweise erzielt ein auf 16 Generierungsschritte trainiertes Inversionsmodell eine 5–27 Punkte höhere Prompt-Wiederherstellung, wenn die Anzahl der Schritte bei der Testzeit auf 32 erhöht wird. Darüber hinaus demonstrieren wir die starke Leistung unserer Methode bei der anspruchsvolleren Aufgabe, versteckte Systemnachrichten wiederherzustellen. Wir analysieren auch die Rolle von wörtlichen Wiederholungen bei der Prompt-Wiederherstellung und schlagen eine neue Methode für den modellübergreifenden Transfer von Logit-basierten Inversionsmodellen vor. Unsere Ergebnisse zeigen, dass nächste Token-Wahrscheinlichkeiten eine deutlich anfälligere Angriffsfläche für Inversionsangriffe darstellen als bisher bekannt.
English
Language model inversion seeks to recover hidden prompts using only language
model outputs. This capability has implications for security and accountability
in language model deployments, such as leaking private information from an
API-protected language model's system message. We propose a new method --
prompt inversion from logprob sequences (PILS) -- that recovers hidden prompts
by gleaning clues from the model's next-token probabilities over the course of
multiple generation steps. Our method is enabled by a key insight: The
vector-valued outputs of a language model occupy a low-dimensional subspace.
This enables us to losslessly compress the full next-token probability
distribution over multiple generation steps using a linear map, allowing more
output information to be used for inversion. Our approach yields massive gains
over previous state-of-the-art methods for recovering hidden prompts, achieving
2--3.5 times higher exact recovery rates across test sets, in one case
increasing the recovery rate from 17% to 60%. Our method also exhibits
surprisingly good generalization behavior; for instance, an inverter trained on
16 generations steps gets 5--27 points higher prompt recovery when we increase
the number of steps to 32 at test time. Furthermore, we demonstrate strong
performance of our method on the more challenging task of recovering hidden
system messages. We also analyze the role of verbatim repetition in prompt
recovery and propose a new method for cross-family model transfer for
logit-based inverters. Our findings show that next-token probabilities are a
considerably more vulnerable attack surface for inversion attacks than
previously known.