Migliorare l'Inversione del Modello Linguistico attraverso una Rappresentazione Compatta delle Distribuzioni del Token Successivo
Better Language Model Inversion by Compactly Representing Next-Token Distributions
June 20, 2025
Autori: Murtaza Nazir, Matthew Finlayson, John X. Morris, Xiang Ren, Swabha Swayamdipta
cs.AI
Abstract
L'inversione del modello linguistico mira a recuperare prompt nascosti utilizzando solo gli output del modello linguistico. Questa capacità ha implicazioni per la sicurezza e la responsabilità nelle implementazioni dei modelli linguistici, come la fuoriuscita di informazioni private dal messaggio di sistema di un modello linguistico protetto da API. Proponiamo un nuovo metodo -- l'inversione del prompt da sequenze di logprob (PILS) -- che recupera prompt nascosti raccogliendo indizi dalle probabilità del token successivo del modello nel corso di più passaggi di generazione. Il nostro metodo è reso possibile da una chiave di intuizione: gli output vettoriali di un modello linguistico occupano un sottospazio a bassa dimensionalità. Ciò ci consente di comprimere senza perdite l'intera distribuzione di probabilità del token successivo su più passaggi di generazione utilizzando una mappa lineare, permettendo di utilizzare più informazioni di output per l'inversione. Il nostro approccio produce guadagni significativi rispetto ai precedenti metodi all'avanguardia per il recupero di prompt nascosti, raggiungendo tassi di recupero esatto da 2 a 3,5 volte più alti su set di test, in un caso aumentando il tasso di recupero dal 17% al 60%. Il nostro metodo mostra anche un comportamento di generalizzazione sorprendentemente buono; ad esempio, un inverter addestrato su 16 passaggi di generazione ottiene un recupero del prompt da 5 a 27 punti più alto quando aumentiamo il numero di passaggi a 32 durante il test. Inoltre, dimostriamo una forte performance del nostro metodo sul compito più impegnativo di recuperare messaggi di sistema nascosti. Analizziamo anche il ruolo della ripetizione letterale nel recupero del prompt e proponiamo un nuovo metodo per il trasferimento di modelli tra famiglie per inverter basati su logit. I nostri risultati mostrano che le probabilità del token successivo rappresentano una superficie di attacco considerevolmente più vulnerabile per gli attacchi di inversione rispetto a quanto si conoscesse in precedenza.
English
Language model inversion seeks to recover hidden prompts using only language
model outputs. This capability has implications for security and accountability
in language model deployments, such as leaking private information from an
API-protected language model's system message. We propose a new method --
prompt inversion from logprob sequences (PILS) -- that recovers hidden prompts
by gleaning clues from the model's next-token probabilities over the course of
multiple generation steps. Our method is enabled by a key insight: The
vector-valued outputs of a language model occupy a low-dimensional subspace.
This enables us to losslessly compress the full next-token probability
distribution over multiple generation steps using a linear map, allowing more
output information to be used for inversion. Our approach yields massive gains
over previous state-of-the-art methods for recovering hidden prompts, achieving
2--3.5 times higher exact recovery rates across test sets, in one case
increasing the recovery rate from 17% to 60%. Our method also exhibits
surprisingly good generalization behavior; for instance, an inverter trained on
16 generations steps gets 5--27 points higher prompt recovery when we increase
the number of steps to 32 at test time. Furthermore, we demonstrate strong
performance of our method on the more challenging task of recovering hidden
system messages. We also analyze the role of verbatim repetition in prompt
recovery and propose a new method for cross-family model transfer for
logit-based inverters. Our findings show that next-token probabilities are a
considerably more vulnerable attack surface for inversion attacks than
previously known.