Забудьте о битах, всё дело в токенах: на пути к семантической теории информации для больших языковых моделей
Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs
November 3, 2025
Авторы: Bo Bai
cs.AI
Аннотация
Крупные языковые модели (LLM) продемонстрировали выдающиеся способности в многочисленных практических приложениях. В то время как подавляющее большинство экспериментальных исследований развивается стремительными темпами, они требуют значительных вычислительных мощностей, данных и других ресурсов. Поэтому вопрос о том, как раскрыть «черный ящик» LLM с теоретической точки зрения, стал критически важным вызовом. Данная статья берет за отправную точку теорию функции рэйт-искажения, направленной информации и причинности Грэнджера для исследования информационно-теоретических принципов, лежащих в основе LLM, что приводит к разработке семантической информационной теории для LLM, где фундаментальной единицей является токен, а не лишенные смысла биты. Определяя вероятностную модель LLM, мы обсуждаем структурно-агностические информационно-теоретические меры, такие как функция направленного рэйт-искажения на этапе предварительного обучения, функция направленного рэйт-вознаграждения на этапе пост-обучения и поток семантической информации на этапе вывода. В статье также глубоко исследуются теория семантического embedding на уровне токенов и информационно-теоретически оптимальный метод векторизации. Впоследствии мы предлагаем общее определение авторегрессионной LLM, в рамках которого архитектура Transformer и её показатели, такие как ELBO, граница ошибки обобщения, емкость памяти и меры семантической информации, могут быть выведены теоретически. Другие архитектуры, такие как Mamba/Mamba2 и LLaDA, также рассматриваются в рамках нашей концепции. Таким образом, данная статья предоставляет теоретическую основу для понимания LLM с точки зрения семантической информационной теории, которая также предлагает необходимые теоретические инструменты для дальнейших углубленных исследований.
English
Large language models (LLMs) have demonstrated remarkable capabilities in
numerous real-world applications. While the vast majority of research conducted
from an experimental perspective is progressing rapidly, it demands substantial
computational power, data, and other resources. Therefore, how to open the
black-box of LLMs from a theoretical standpoint has become a critical
challenge. This paper takes the theory of rate-distortion function, directed
information, and Granger causality as its starting point to investigate the
information-theoretic principles behind LLMs, leading to the development of
semantic information theory for LLMs, where the fundamental unit is token,
rather than bits that lacks any semantic meaning. By defining the probabilistic
model of LLMs, we discuss structure-agnostic information-theoretic measures,
such as the directed rate-distortion function in pre-training, the directed
rate-reward function in post-training, and the semantic information flow in
inference phase. This paper also delves deeply into the theory of token-level
semantic embedding and the information-theoretically optimal vectorization
method. Thereafter, we propose a general definition of autoregression LLM,
where the Transformer architecture and its performance such as ELBO,
generalization error bound, memory capacity, and semantic information measures
can be derived theoretically. Other architectures, such as Mamba/Mamba2 and
LLaDA, are also discussed in our framework. Consequently, this paper provides a
theoretical framework for understanding LLMs from the perspective of semantic
information theory, which also offers the necessary theoretical tools for
further in-depth research.