ChatPaper.aiChatPaper

Oubliez le BIT, Tout est dans le TOKEN : Vers une Théorie de l'Information Sémantique pour les LLM

Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs

November 3, 2025
papers.authors: Bo Bai
cs.AI

papers.abstract

Les grands modèles de langage (LLM) ont démontré des capacités remarquables dans de nombreuses applications réelles. Bien que la grande majorité des recherches menées sous un angle expérimental progresse rapidement, elles exigent des ressources computationnelles, des données et d'autres ressources substantielles. Par conséquent, la question de comment ouvrir la boîte noire des LLM d'un point de vue théorique est devenue un défi critique. Cet article prend pour point de départ la théorie de la fonction débit-distorsion, l'information dirigée et la causalité au sens de Granger pour étudier les principes informationnels sous-jacents aux LLM, conduisant au développement d'une théorie de l'information sémantique pour les LLM, où l'unité fondamentale est le token, plutôt que le bit dépourvu de signification sémantique. En définissant le modèle probabiliste des LLM, nous discutons des mesures informationnelles indépendantes de la structure, telles que la fonction débit-distorsion dirigée dans le pré-entraînement, la fonction débit-récompense dirigée dans le post-entraînement, et le flux d'information sémantique dans la phase d'inférence. Cet article examine également en profondeur la théorie de l'embedding sémantique au niveau du token et la méthode de vectorisation optimale d'un point de vue informationnel. Par la suite, nous proposons une définition générale d'un LLM autorégressif, à partir de laquelle l'architecture Transformer et ses performances, telles que l'ELBO, la borne d'erreur de généralisation, la capacité mémoire et les mesures d'information sémantique, peuvent être dérivées théoriquement. D'autres architectures, comme Mamba/Mamba2 et LLaDA, sont également discutées dans notre cadre. Par conséquent, cet article fournit un cadre théorique pour comprendre les LLM sous l'angle de la théorie de l'information sémantique, qui offre également les outils théoriques nécessaires pour des recherches plus approfondies.
English
Large language models (LLMs) have demonstrated remarkable capabilities in numerous real-world applications. While the vast majority of research conducted from an experimental perspective is progressing rapidly, it demands substantial computational power, data, and other resources. Therefore, how to open the black-box of LLMs from a theoretical standpoint has become a critical challenge. This paper takes the theory of rate-distortion function, directed information, and Granger causality as its starting point to investigate the information-theoretic principles behind LLMs, leading to the development of semantic information theory for LLMs, where the fundamental unit is token, rather than bits that lacks any semantic meaning. By defining the probabilistic model of LLMs, we discuss structure-agnostic information-theoretic measures, such as the directed rate-distortion function in pre-training, the directed rate-reward function in post-training, and the semantic information flow in inference phase. This paper also delves deeply into the theory of token-level semantic embedding and the information-theoretically optimal vectorization method. Thereafter, we propose a general definition of autoregression LLM, where the Transformer architecture and its performance such as ELBO, generalization error bound, memory capacity, and semantic information measures can be derived theoretically. Other architectures, such as Mamba/Mamba2 and LLaDA, are also discussed in our framework. Consequently, this paper provides a theoretical framework for understanding LLMs from the perspective of semantic information theory, which also offers the necessary theoretical tools for further in-depth research.
PDF51December 2, 2025