Sprachmodelle sind injektiv und somit invertierbar.
Language Models are Injective and Hence Invertible
October 17, 2025
papers.authors: Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, Andrea Santilli, Yannis Panagakis, Emanuele Rodola'
cs.AI
papers.abstract
Transformer-Komponenten wie nicht-lineare Aktivierungen und Normalisierung sind von Natur aus nicht-injektiv, was darauf hindeutet, dass verschiedene Eingaben auf dieselbe Ausgabe abgebildet werden könnten und somit eine exakte Rekonstruktion der Eingabe aus den Repräsentationen eines Modells verhindern. In dieser Arbeit stellen wir diese Ansicht in Frage. Zunächst beweisen wir mathematisch, dass Transformer-Sprachmodelle, die diskrete Eingabesequenzen auf ihre entsprechenden Sequenzen kontinuierlicher Repräsentationen abbilden, injektiv und somit verlustfrei sind – eine Eigenschaft, die bei der Initialisierung festgelegt und während des Trainings beibehalten wird. Zweitens bestätigen wir dieses Ergebnis empirisch durch Milliarden von Kollisionstests an sechs state-of-the-art Sprachmodellen und beobachten dabei keine Kollisionen. Drittens operationalisieren wir die Injektivität: Wir stellen SipIt vor, den ersten Algorithmus, der nachweislich und effizient den exakten Eingabetext aus verborgenen Aktivierungen rekonstruiert, wobei wir lineare Zeitgarantien etablieren und die exakte Umkehrbarkeit in der Praxis demonstrieren. Insgesamt etabliert unsere Arbeit die Injektivität als eine grundlegende und nutzbare Eigenschaft von Sprachmodellen mit direkten Implikationen für Transparenz, Interpretierbarkeit und sichere Bereitstellung.
English
Transformer components such as non-linear activations and normalization are
inherently non-injective, suggesting that different inputs could map to the
same output and prevent exact recovery of the input from a model's
representations. In this paper, we challenge this view. First, we prove
mathematically that transformer language models mapping discrete input
sequences to their corresponding sequence of continuous representations are
injective and therefore lossless, a property established at initialization and
preserved during training. Second, we confirm this result empirically through
billions of collision tests on six state-of-the-art language models, and
observe no collisions. Third, we operationalize injectivity: we introduce
SipIt, the first algorithm that provably and efficiently reconstructs the exact
input text from hidden activations, establishing linear-time guarantees and
demonstrating exact invertibility in practice. Overall, our work establishes
injectivity as a fundamental and exploitable property of language models, with
direct implications for transparency, interpretability, and safe deployment.