ChatPaper.aiChatPaper

BITを超えて、すべてはTOKENにあり:LLMのための意味情報理論に向けて

Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs

November 3, 2025
著者: Bo Bai
cs.AI

要旨

大規模言語モデル(LLM)は、数多くの実世界アプリケーションにおいて顕著な能力を発揮している。実験的視点から行われる研究の大半が急速に進展している一方で、それは膨大な計算資源、データ、その他のリソースを必要とする。したがって、理論的立場からLLMのブラックボックスをいかに解明するかが重要な課題となっている。本論文は、レート歪み関数理論、有向情報量、グレンジャー因果性の理論を出発点とし、LLM背後にある情報理論的原理を探求する。これにより、意味を欠くビットではなく、トークンを基本単位とするLLMのための意味情報理論の構築につなげる。LLMの確率モデルを定義することで、構造に依存しない情報理論的測度、すなわち事前学習における有向レート歪み関数、事後学習における有向レート報酬関数、推論フェーズにおける意味情報フローについて論じる。本論文はさらに、トークンレベルの意味埋め込みの理論と、情報理論的に最適なベクトル化手法について深く掘り下げる。その後、Transformerアーキテクチャとその性能(ELBO、汎化誤差界、記憶容量、意味情報測度など)が理論的に導出可能な、自己回帰型LLMの一般的な定義を提案する。Mamba/Mamba2やLLaDAなどの他のアーキテクチャも、本フレームワーク内で議論する。結果として、本論文は意味情報理論の観点からLLMを理解するための理論的枠組みを提供し、さらなる深い研究に必要な理論的ツールを提供するものである。
English
Large language models (LLMs) have demonstrated remarkable capabilities in numerous real-world applications. While the vast majority of research conducted from an experimental perspective is progressing rapidly, it demands substantial computational power, data, and other resources. Therefore, how to open the black-box of LLMs from a theoretical standpoint has become a critical challenge. This paper takes the theory of rate-distortion function, directed information, and Granger causality as its starting point to investigate the information-theoretic principles behind LLMs, leading to the development of semantic information theory for LLMs, where the fundamental unit is token, rather than bits that lacks any semantic meaning. By defining the probabilistic model of LLMs, we discuss structure-agnostic information-theoretic measures, such as the directed rate-distortion function in pre-training, the directed rate-reward function in post-training, and the semantic information flow in inference phase. This paper also delves deeply into the theory of token-level semantic embedding and the information-theoretically optimal vectorization method. Thereafter, we propose a general definition of autoregression LLM, where the Transformer architecture and its performance such as ELBO, generalization error bound, memory capacity, and semantic information measures can be derived theoretically. Other architectures, such as Mamba/Mamba2 and LLaDA, are also discussed in our framework. Consequently, this paper provides a theoretical framework for understanding LLMs from the perspective of semantic information theory, which also offers the necessary theoretical tools for further in-depth research.
PDF51December 2, 2025