ChatPaper.aiChatPaper

Vergesst BIT, es geht nur um TOKEN: Auf dem Weg zu einer semantischen Informationstheorie für LLMs

Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs

November 3, 2025
papers.authors: Bo Bai
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Fähigkeiten in zahlreichen realen Anwendungen unter Beweis gestellt. Während die überwiegende Mehrheit der aus experimenteller Perspektive durchgeführten Forschung rasch voranschreitet, erfordert sie erhebliche Rechenleistung, Daten und andere Ressourcen. Daher ist es zu einer entscheidenden Herausforderung geworden, wie man die Black-Box der LLMs aus theoretischer Sicht öffnen kann. Dieser Aufsatz nimmt die Theorie der Raten-Distortions-Funktion, der gerichteten Information und der Granger-Kausalität als Ausgangspunkt, um die informationstheoretischen Prinzipien hinter LLMs zu untersuchen. Dies führt zur Entwicklung einer semantischen Informationstheorie für LLMs, in der die fundamentale Einheit das Token ist und nicht Bits, denen jede Semantik fehlt. Durch die Definition des probabilistischen Modells von LLMs diskutieren wir architekturunabhängige informationstheoretische Maße, wie die gerichtete Raten-Distortions-Funktion im Pre-Training, die gerichtete Raten-Belohnungs-Funktion im Post-Training und den semantischen Informationsfluss in der Inferenzphase. Dieser Aufsatz geht auch tief in die Theorie der semantischen Token-Einbettung und die informationstheoretisch optimale Vektorisierungsmethode ein. Danach schlagen wir eine allgemeine Definition des autoregressiven LLMs vor, aus der die Transformer-Architektur und ihre Leistungskennzahlen wie ELBO, Generalisierungsfehlerschranke, Speicherkapazität und semantische Informationsmaße theoretisch abgeleitet werden können. Andere Architekturen, wie Mamba/Mamba2 und LLaDA, werden ebenfalls in unserem Rahmen diskutiert. Folglich bietet dieser Aufsatz einen theoretischen Rahmen zum Verständnis von LLMs aus der Perspektive der semantischen Informationstheorie, der auch die notwendigen theoretischen Werkzeuge für weiterführende vertiefte Forschung bereitstellt.
English
Large language models (LLMs) have demonstrated remarkable capabilities in numerous real-world applications. While the vast majority of research conducted from an experimental perspective is progressing rapidly, it demands substantial computational power, data, and other resources. Therefore, how to open the black-box of LLMs from a theoretical standpoint has become a critical challenge. This paper takes the theory of rate-distortion function, directed information, and Granger causality as its starting point to investigate the information-theoretic principles behind LLMs, leading to the development of semantic information theory for LLMs, where the fundamental unit is token, rather than bits that lacks any semantic meaning. By defining the probabilistic model of LLMs, we discuss structure-agnostic information-theoretic measures, such as the directed rate-distortion function in pre-training, the directed rate-reward function in post-training, and the semantic information flow in inference phase. This paper also delves deeply into the theory of token-level semantic embedding and the information-theoretically optimal vectorization method. Thereafter, we propose a general definition of autoregression LLM, where the Transformer architecture and its performance such as ELBO, generalization error bound, memory capacity, and semantic information measures can be derived theoretically. Other architectures, such as Mamba/Mamba2 and LLaDA, are also discussed in our framework. Consequently, this paper provides a theoretical framework for understanding LLMs from the perspective of semantic information theory, which also offers the necessary theoretical tools for further in-depth research.
PDF51December 2, 2025