Betere Taalmodelinversie door Compacte Representatie van Volgende-Token Distributies
Better Language Model Inversion by Compactly Representing Next-Token Distributions
June 20, 2025
Auteurs: Murtaza Nazir, Matthew Finlayson, John X. Morris, Xiang Ren, Swabha Swayamdipta
cs.AI
Samenvatting
Taalmodelinversie streeft ernaar verborgen prompts te herstellen met alleen de uitvoer van een taalmodel. Deze mogelijkheid heeft implicaties voor beveiliging en verantwoording bij de inzet van taalmodellen, zoals het lekken van privé-informatie uit een systeemboodschap van een API-beveiligd taalmodel. Wij stellen een nieuwe methode voor — promptinversie uit logprob-reeksen (PILS) — die verborgen prompts herstelt door aanwijzingen te verzamelen uit de volgende-token-kansen van het model gedurende meerdere generatiestappen. Onze methode wordt mogelijk gemaakt door een belangrijk inzicht: de vectorwaardige uitvoer van een taalmodel bevindt zich in een laagdimensionale deelruimte. Hierdoor kunnen we de volledige volgende-token-kansverdeling over meerdere generatiestappen verliesvrij comprimeren met behulp van een lineaire afbeelding, waardoor meer uitvoerinformatie kan worden gebruikt voor inversie. Onze aanpak levert enorme verbeteringen op ten opzichte van eerdere state-of-the-art methoden voor het herstellen van verborgen prompts, met 2–3,5 keer hogere exacte herstelpercentages over testverzamelingen, waarbij in één geval het herstelpercentage stijgt van 17% naar 60%. Onze methode vertoont ook verrassend goed generalisatiegedrag; bijvoorbeeld, een inverter getraind op 16 generatiestappen behaalt 5–27 punten hogere promptherstelpercentages wanneer we het aantal stappen tijdens de test verhogen naar 32. Bovendien demonstreren we sterke prestaties van onze methode bij de uitdagendere taak van het herstellen van verborgen systeemboodschappen. We analyseren ook de rol van letterlijke herhaling bij promptherstel en stellen een nieuwe methode voor voor cross-family modeltransfer voor logit-gebaseerde inverters. Onze bevindingen tonen aan dat volgende-token-kansen een aanzienlijk kwetsbaarder aanvalsoppervlak vormen voor inversieaanvallen dan eerder bekend was.
English
Language model inversion seeks to recover hidden prompts using only language
model outputs. This capability has implications for security and accountability
in language model deployments, such as leaking private information from an
API-protected language model's system message. We propose a new method --
prompt inversion from logprob sequences (PILS) -- that recovers hidden prompts
by gleaning clues from the model's next-token probabilities over the course of
multiple generation steps. Our method is enabled by a key insight: The
vector-valued outputs of a language model occupy a low-dimensional subspace.
This enables us to losslessly compress the full next-token probability
distribution over multiple generation steps using a linear map, allowing more
output information to be used for inversion. Our approach yields massive gains
over previous state-of-the-art methods for recovering hidden prompts, achieving
2--3.5 times higher exact recovery rates across test sets, in one case
increasing the recovery rate from 17% to 60%. Our method also exhibits
surprisingly good generalization behavior; for instance, an inverter trained on
16 generations steps gets 5--27 points higher prompt recovery when we increase
the number of steps to 32 at test time. Furthermore, we demonstrate strong
performance of our method on the more challenging task of recovering hidden
system messages. We also analyze the role of verbatim repetition in prompt
recovery and propose a new method for cross-family model transfer for
logit-based inverters. Our findings show that next-token probabilities are a
considerably more vulnerable attack surface for inversion attacks than
previously known.