I modelli linguistici sono iniettivi e quindi invertibili.
Language Models are Injective and Hence Invertible
October 17, 2025
Autori: Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, Andrea Santilli, Yannis Panagakis, Emanuele Rodola'
cs.AI
Abstract
Componenti dei Transformer come le attivazioni non lineari e la normalizzazione sono intrinsecamente non iniettive, suggerendo che input diversi possano mappare sullo stesso output e impedire il recupero esatto dell'input dalle rappresentazioni del modello. In questo articolo, contestiamo questa visione. In primo luogo, dimostriamo matematicamente che i modelli linguistici Transformer che mappano sequenze di input discrete alle corrispondenti sequenze di rappresentazioni continue sono iniettivi e quindi privi di perdita, una proprietà stabilita all'inizializzazione e preservata durante l'addestramento. In secondo luogo, confermiamo questo risultato empiricamente attraverso miliardi di test di collisione su sei modelli linguistici all'avanguardia, osservando nessuna collisione. In terzo luogo, operazionalizziamo l'iniettività: introduciamo SipIt, il primo algoritmo che ricostruisce in modo dimostrabile ed efficiente l'esatto testo di input dalle attivazioni nascoste, stabilendo garanzie di tempo lineare e dimostrando l'invertibilità esatta nella pratica. Nel complesso, il nostro lavoro stabilisce l'iniettività come una proprietà fondamentale e sfruttabile dei modelli linguistici, con implicazioni dirette per la trasparenza, l'interpretabilità e il dispiegamento sicuro.
English
Transformer components such as non-linear activations and normalization are
inherently non-injective, suggesting that different inputs could map to the
same output and prevent exact recovery of the input from a model's
representations. In this paper, we challenge this view. First, we prove
mathematically that transformer language models mapping discrete input
sequences to their corresponding sequence of continuous representations are
injective and therefore lossless, a property established at initialization and
preserved during training. Second, we confirm this result empirically through
billions of collision tests on six state-of-the-art language models, and
observe no collisions. Third, we operationalize injectivity: we introduce
SipIt, the first algorithm that provably and efficiently reconstructs the exact
input text from hidden activations, establishing linear-time guarantees and
demonstrating exact invertibility in practice. Overall, our work establishes
injectivity as a fundamental and exploitable property of language models, with
direct implications for transparency, interpretability, and safe deployment.