Los Modelos de Lenguaje son Inyectivos y por lo tanto Invertibles.
Language Models are Injective and Hence Invertible
October 17, 2025
Autores: Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, Andrea Santilli, Yannis Panagakis, Emanuele Rodola'
cs.AI
Resumen
Los componentes de los transformadores, como las activaciones no lineales y la normalización, son inherentemente no inyectivos, lo que sugiere que diferentes entradas podrían mapearse a la misma salida y evitar la recuperación exacta de la entrada a partir de las representaciones del modelo. En este artículo, desafiamos esta perspectiva. Primero, demostramos matemáticamente que los modelos de lenguaje basados en transformadores que mapean secuencias de entrada discretas a sus correspondientes secuencias de representaciones continuas son inyectivos y, por lo tanto, sin pérdida, una propiedad establecida en la inicialización y preservada durante el entrenamiento. Segundo, confirmamos este resultado empíricamente a través de miles de millones de pruebas de colisión en seis modelos de lenguaje de última generación, y no observamos colisiones. Tercero, operacionalizamos la inyectividad: presentamos SipIt, el primer algoritmo que reconstruye de manera probada y eficiente el texto de entrada exacto a partir de las activaciones ocultas, estableciendo garantías de tiempo lineal y demostrando invertibilidad exacta en la práctica. En general, nuestro trabajo establece la inyectividad como una propiedad fundamental y explotable de los modelos de lenguaje, con implicaciones directas para la transparencia, interpretabilidad y despliegue seguro.
English
Transformer components such as non-linear activations and normalization are
inherently non-injective, suggesting that different inputs could map to the
same output and prevent exact recovery of the input from a model's
representations. In this paper, we challenge this view. First, we prove
mathematically that transformer language models mapping discrete input
sequences to their corresponding sequence of continuous representations are
injective and therefore lossless, a property established at initialization and
preserved during training. Second, we confirm this result empirically through
billions of collision tests on six state-of-the-art language models, and
observe no collisions. Third, we operationalize injectivity: we introduce
SipIt, the first algorithm that provably and efficiently reconstructs the exact
input text from hidden activations, establishing linear-time guarantees and
demonstrating exact invertibility in practice. Overall, our work establishes
injectivity as a fundamental and exploitable property of language models, with
direct implications for transparency, interpretability, and safe deployment.