ChatPaper.aiChatPaper

Улучшение инверсии языковой модели за счет компактного представления распределений следующего токена

Better Language Model Inversion by Compactly Representing Next-Token Distributions

June 20, 2025
Авторы: Murtaza Nazir, Matthew Finlayson, John X. Morris, Xiang Ren, Swabha Swayamdipta
cs.AI

Аннотация

Инверсия языковых моделей направлена на восстановление скрытых промптов, используя только выходные данные языковой модели. Эта возможность имеет значение для безопасности и подотчетности при развертывании языковых моделей, например, для утечки конфиденциальной информации из системного сообщения языковой модели, защищенной API. Мы предлагаем новый метод — инверсию промптов на основе последовательностей логарифмических вероятностей (PILS), который восстанавливает скрытые промпты, извлекая подсказки из вероятностей следующего токена модели в ходе нескольких шагов генерации. Наш метод основан на ключевом наблюдении: векторные выходные данные языковой модели занимают низкоразмерное подпространство. Это позволяет нам без потерь сжимать полное распределение вероятностей следующего токена на нескольких шагах генерации с использованием линейного отображения, что дает возможность использовать больше выходной информации для инверсии. Наш подход обеспечивает значительное улучшение по сравнению с предыдущими передовыми методами восстановления скрытых промптов, достигая в 2–3,5 раза более высоких показателей точного восстановления на тестовых наборах, в одном случае увеличивая показатель восстановления с 17% до 60%. Наш метод также демонстрирует удивительно хорошее поведение в плане обобщения; например, инвертор, обученный на 16 шагах генерации, показывает на 5–27 пунктов более высокое восстановление промптов при увеличении числа шагов до 32 во время тестирования. Кроме того, мы демонстрируем высокую производительность нашего метода в более сложной задаче восстановления скрытых системных сообщений. Мы также анализируем роль дословного повторения в восстановлении промптов и предлагаем новый метод для кросс-семейного переноса моделей для инверторов, основанных на логарифмических вероятностях. Наши результаты показывают, что вероятности следующего токена представляют собой значительно более уязвимую поверхность для атак инверсии, чем считалось ранее.
English
Language model inversion seeks to recover hidden prompts using only language model outputs. This capability has implications for security and accountability in language model deployments, such as leaking private information from an API-protected language model's system message. We propose a new method -- prompt inversion from logprob sequences (PILS) -- that recovers hidden prompts by gleaning clues from the model's next-token probabilities over the course of multiple generation steps. Our method is enabled by a key insight: The vector-valued outputs of a language model occupy a low-dimensional subspace. This enables us to losslessly compress the full next-token probability distribution over multiple generation steps using a linear map, allowing more output information to be used for inversion. Our approach yields massive gains over previous state-of-the-art methods for recovering hidden prompts, achieving 2--3.5 times higher exact recovery rates across test sets, in one case increasing the recovery rate from 17% to 60%. Our method also exhibits surprisingly good generalization behavior; for instance, an inverter trained on 16 generations steps gets 5--27 points higher prompt recovery when we increase the number of steps to 32 at test time. Furthermore, we demonstrate strong performance of our method on the more challenging task of recovering hidden system messages. We also analyze the role of verbatim repetition in prompt recovery and propose a new method for cross-family model transfer for logit-based inverters. Our findings show that next-token probabilities are a considerably more vulnerable attack surface for inversion attacks than previously known.
PDF12June 23, 2025