Sprachmodelle sind injektiv und somit invertierbar.

papers.abstract

Transformer-Komponenten wie nicht-lineare Aktivierungen und Normalisierung sind von Natur aus nicht-injektiv, was darauf hindeutet, dass verschiedene Eingaben auf dieselbe Ausgabe abgebildet werden könnten und somit eine exakte Rekonstruktion der Eingabe aus den Repräsentationen eines Modells verhindern. In dieser Arbeit stellen wir diese Ansicht in Frage. Zunächst beweisen wir mathematisch, dass Transformer-Sprachmodelle, die diskrete Eingabesequenzen auf ihre entsprechenden Sequenzen kontinuierlicher Repräsentationen abbilden, injektiv und somit verlustfrei sind – eine Eigenschaft, die bei der Initialisierung festgelegt und während des Trainings beibehalten wird. Zweitens bestätigen wir dieses Ergebnis empirisch durch Milliarden von Kollisionstests an sechs state-of-the-art Sprachmodellen und beobachten dabei keine Kollisionen. Drittens operationalisieren wir die Injektivität: Wir stellen SipIt vor, den ersten Algorithmus, der nachweislich und effizient den exakten Eingabetext aus verborgenen Aktivierungen rekonstruiert, wobei wir lineare Zeitgarantien etablieren und die exakte Umkehrbarkeit in der Praxis demonstrieren. Insgesamt etabliert unsere Arbeit die Injektivität als eine grundlegende und nutzbare Eigenschaft von Sprachmodellen mit direkten Implikationen für Transparenz, Interpretierbarkeit und sichere Bereitstellung.

English

Transformer components such as non-linear activations and normalization are inherently non-injective, suggesting that different inputs could map to the same output and prevent exact recovery of the input from a model's representations. In this paper, we challenge this view. First, we prove mathematically that transformer language models mapping discrete input sequences to their corresponding sequence of continuous representations are injective and therefore lossless, a property established at initialization and preserved during training. Second, we confirm this result empirically through billions of collision tests on six state-of-the-art language models, and observe no collisions. Third, we operationalize injectivity: we introduce SipIt, the first algorithm that provably and efficiently reconstructs the exact input text from hidden activations, establishing linear-time guarantees and demonstrating exact invertibility in practice. Overall, our work establishes injectivity as a fundamental and exploitable property of language models, with direct implications for transparency, interpretability, and safe deployment.

Sprachmodelle sind injektiv und somit invertierbar.

Language Models are Injective and Hence Invertible

papers.abstract

Support