Los Modelos de Lenguaje son Inyectivos y por lo tanto Invertibles.

Resumen

Los componentes de los transformadores, como las activaciones no lineales y la normalización, son inherentemente no inyectivos, lo que sugiere que diferentes entradas podrían mapearse a la misma salida y evitar la recuperación exacta de la entrada a partir de las representaciones del modelo. En este artículo, desafiamos esta perspectiva. Primero, demostramos matemáticamente que los modelos de lenguaje basados en transformadores que mapean secuencias de entrada discretas a sus correspondientes secuencias de representaciones continuas son inyectivos y, por lo tanto, sin pérdida, una propiedad establecida en la inicialización y preservada durante el entrenamiento. Segundo, confirmamos este resultado empíricamente a través de miles de millones de pruebas de colisión en seis modelos de lenguaje de última generación, y no observamos colisiones. Tercero, operacionalizamos la inyectividad: presentamos SipIt, el primer algoritmo que reconstruye de manera probada y eficiente el texto de entrada exacto a partir de las activaciones ocultas, estableciendo garantías de tiempo lineal y demostrando invertibilidad exacta en la práctica. En general, nuestro trabajo establece la inyectividad como una propiedad fundamental y explotable de los modelos de lenguaje, con implicaciones directas para la transparencia, interpretabilidad y despliegue seguro.

English

Transformer components such as non-linear activations and normalization are inherently non-injective, suggesting that different inputs could map to the same output and prevent exact recovery of the input from a model's representations. In this paper, we challenge this view. First, we prove mathematically that transformer language models mapping discrete input sequences to their corresponding sequence of continuous representations are injective and therefore lossless, a property established at initialization and preserved during training. Second, we confirm this result empirically through billions of collision tests on six state-of-the-art language models, and observe no collisions. Third, we operationalize injectivity: we introduce SipIt, the first algorithm that provably and efficiently reconstructs the exact input text from hidden activations, establishing linear-time guarantees and demonstrating exact invertibility in practice. Overall, our work establishes injectivity as a fundamental and exploitable property of language models, with direct implications for transparency, interpretability, and safe deployment.

Los Modelos de Lenguaje son Inyectivos y por lo tanto Invertibles.

Language Models are Injective and Hence Invertible

Resumen

Support