Olvídese del BIT, Todo se Trata del TOKEN: Hacia una Teoría de la Información Semántica para los LLM
Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs
November 3, 2025
Autores: Bo Bai
cs.AI
Resumen
Los grandes modelos de lenguaje (LLMs) han demostrado capacidades notables en numerosas aplicaciones del mundo real. Si bien la gran mayoría de la investigación realizada desde una perspectiva experimental avanza rápidamente, esta requiere un sustancial poder computacional, datos y otros recursos. Por lo tanto, cómo abrir la caja negra de los LLMs desde un punto de vista teórico se ha convertido en un desafío crítico. Este artículo toma como punto de partida la teoría de la función tasa-distorsión, la información dirigida y la causalidad de Granger para investigar los principios de la teoría de la información detrás de los LLMs, lo que conduce al desarrollo de una teoría de la información semántica para LLMs, donde la unidad fundamental es el *token*, en lugar de los bits que carecen de significado semántico. Al definir el modelo probabilístico de los LLMs, discutimos medidas de teoría de la información independientes de la estructura, como la función tasa-distorsión dirigida en el pre-entrenamiento, la función tasa-recompensa dirigida en el post-entrenamiento y el flujo de información semántica en la fase de inferencia. Este artículo también profundiza en la teoría de la incrustación semántica a nivel de *token* y en el método de vectorización óptimo desde la perspectiva de la teoría de la información. A partir de esto, proponemos una definición general de LLM autorregresivo, a partir de la cual la arquitectura Transformer y su rendimiento, como la ELBO, la cota del error de generalización, la capacidad de memoria y las medidas de información semántica, pueden derivarse teóricamente. Otras arquitecturas, como Mamba/Mamba2 y LLaDA, también se discuten en nuestro marco teórico. En consecuencia, este artículo proporciona un marco teórico para comprender los LLMs desde la perspectiva de la teoría de la información semántica, lo que también ofrece las herramientas teóricas necesarias para futuras investigaciones en profundidad.
English
Large language models (LLMs) have demonstrated remarkable capabilities in
numerous real-world applications. While the vast majority of research conducted
from an experimental perspective is progressing rapidly, it demands substantial
computational power, data, and other resources. Therefore, how to open the
black-box of LLMs from a theoretical standpoint has become a critical
challenge. This paper takes the theory of rate-distortion function, directed
information, and Granger causality as its starting point to investigate the
information-theoretic principles behind LLMs, leading to the development of
semantic information theory for LLMs, where the fundamental unit is token,
rather than bits that lacks any semantic meaning. By defining the probabilistic
model of LLMs, we discuss structure-agnostic information-theoretic measures,
such as the directed rate-distortion function in pre-training, the directed
rate-reward function in post-training, and the semantic information flow in
inference phase. This paper also delves deeply into the theory of token-level
semantic embedding and the information-theoretically optimal vectorization
method. Thereafter, we propose a general definition of autoregression LLM,
where the Transformer architecture and its performance such as ELBO,
generalization error bound, memory capacity, and semantic information measures
can be derived theoretically. Other architectures, such as Mamba/Mamba2 and
LLaDA, are also discussed in our framework. Consequently, this paper provides a
theoretical framework for understanding LLMs from the perspective of semantic
information theory, which also offers the necessary theoretical tools for
further in-depth research.