ChatPaper.aiChatPaper

BIT는 잊어라, 모든 것은 TOKEN에 관한 것이다: LLM을 위한 의미론적 정보 이론을 향하여

Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs

November 3, 2025
저자: Bo Bai
cs.AI

초록

대규모 언어 모델(LLM)은 수많은 실제 응용 분야에서 놀라운 능력을 입증해 왔다. 실험적 관점에서 수행되는 대부분의 연구가 빠르게 진행되고 있지만, 이는 상당한 컴퓨팅 성능, 데이터 및 기타 자원을 요구한다. 따라서 이론적 관점에서 LLM의 블랙박스를 해체하는 방법이 중요한 과제로 대두되고 있다. 본 논문은 속도-왜곡 함수 이론, 방향 정보, 그리고 그레인저 인과성을 출발점으로 하여 LLM의 정보 이론적 원리를 탐구하며, 의미를 담지 않은 비트(bit)가 아닌 토큰(token)을 기본 단위로 하는 LLM을 위한 의미론적 정보 이론의 발전을 이끌어낸다. LLM의 확률적 모델을 정의함으로써, 사전 학습 단계의 방향성 속도-왜곡 함수, 사후 학습 단계의 방향성 속도-보상 함수, 추론 단계의 의미론적 정보 흐름과 같은 구조-불가지론적 정보 이론적 측정치를 논의한다. 또한 본 논문은 토큰 수준 의미 임베딩 이론과 정보 이론적으로 최적인 벡터화 방법을 깊이 있게 탐구한다. 이후 우리는 자기회귀적 LLM에 대한 일반적인 정의를 제안하며, 여기서 Transformer 아키텍처와 ELBO, 일반화 오차 한계, 메모리 용량, 의미론적 정보 측정치와 같은 그 성능을 이론적으로 도출할 수 있다. Mamba/Mamba2 및 LLaDA와 같은 다른 아키텍처들도 우리의 프레임워크 내에서 논의된다. 결과적으로, 본 논문은 의미론적 정보 이론의 관점에서 LLM을 이해하기 위한 이론적 프레임워크를 제공하며, 이는 더욱 심층적인 연구를 위한 필요한 이론적 도구도 함께 제공한다.
English
Large language models (LLMs) have demonstrated remarkable capabilities in numerous real-world applications. While the vast majority of research conducted from an experimental perspective is progressing rapidly, it demands substantial computational power, data, and other resources. Therefore, how to open the black-box of LLMs from a theoretical standpoint has become a critical challenge. This paper takes the theory of rate-distortion function, directed information, and Granger causality as its starting point to investigate the information-theoretic principles behind LLMs, leading to the development of semantic information theory for LLMs, where the fundamental unit is token, rather than bits that lacks any semantic meaning. By defining the probabilistic model of LLMs, we discuss structure-agnostic information-theoretic measures, such as the directed rate-distortion function in pre-training, the directed rate-reward function in post-training, and the semantic information flow in inference phase. This paper also delves deeply into the theory of token-level semantic embedding and the information-theoretically optimal vectorization method. Thereafter, we propose a general definition of autoregression LLM, where the Transformer architecture and its performance such as ELBO, generalization error bound, memory capacity, and semantic information measures can be derived theoretically. Other architectures, such as Mamba/Mamba2 and LLaDA, are also discussed in our framework. Consequently, this paper provides a theoretical framework for understanding LLMs from the perspective of semantic information theory, which also offers the necessary theoretical tools for further in-depth research.
PDF51December 2, 2025