ChatPaper.aiChatPaper

Vergeet BIT, het gaat om TOKEN: Op weg naar een semantische informatietheorie voor LLM's

Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs

November 3, 2025
Auteurs: Bo Bai
cs.AI

Samenvatting

Grote taalmodellen (LLM's) hebben opmerkelijke capaciteiten getoond in talloze praktijktoepassingen. Hoewel het overgrote deel van het onderzoek vanuit experimenteel perspectief snel vordert, vergt dit aanzienlijke rekenkracht, data en andere middelen. Daarom is het openen van de black-box van LLM's vanuit een theoretisch standpunt een cruciale uitdaging geworden. Dit artikel neemt de theorie van de snelheids-vervormingsfunctie, gerichte informatie en Granger-causaliteit als uitgangspunt om de informatie-theoretische principes achter LLM's te onderzoeken, wat leidt tot de ontwikkeling van een semantische informatie-theorie voor LLM's, waarbij de fundamentele eenheid de token is, in plaats van bits die geen enkele semantische betekenis hebben. Door het probabilistische model van LLM's te definiëren, bespreken we structuuronafhankelijke informatie-theoretische maten, zoals de gerichte snelheids-vervormingsfunctie in pre-training, de gerichte snelheids-beloningsfunctie in post-training, en de semantische informatiestroom in de inferentiefase. Dit artikel gaat ook diep in op de theorie van semantische inbedding op tokenniveau en de informatie-theoretisch optimale vectorisatiemethode. Vervolgens stellen we een algemene definitie van autoregressieve LLM's voor, waarbij de Transformer-architectuur en zijn prestaties zoals ELBO, generalisatiefoutgrens, geheugencapaciteit en semantische informatie-maten theoretisch kunnen worden afgeleid. Andere architecturen, zoals Mamba/Mamba2 en LLaDA, worden eveneens binnen ons kader besproken. Bijgevolg biedt dit artikel een theoretisch kader voor het begrijpen van LLM's vanuit het perspectief van semantische informatie-theorie, dat ook de nodige theoretische instrumenten biedt voor verder diepgaand onderzoek.
English
Large language models (LLMs) have demonstrated remarkable capabilities in numerous real-world applications. While the vast majority of research conducted from an experimental perspective is progressing rapidly, it demands substantial computational power, data, and other resources. Therefore, how to open the black-box of LLMs from a theoretical standpoint has become a critical challenge. This paper takes the theory of rate-distortion function, directed information, and Granger causality as its starting point to investigate the information-theoretic principles behind LLMs, leading to the development of semantic information theory for LLMs, where the fundamental unit is token, rather than bits that lacks any semantic meaning. By defining the probabilistic model of LLMs, we discuss structure-agnostic information-theoretic measures, such as the directed rate-distortion function in pre-training, the directed rate-reward function in post-training, and the semantic information flow in inference phase. This paper also delves deeply into the theory of token-level semantic embedding and the information-theoretically optimal vectorization method. Thereafter, we propose a general definition of autoregression LLM, where the Transformer architecture and its performance such as ELBO, generalization error bound, memory capacity, and semantic information measures can be derived theoretically. Other architectures, such as Mamba/Mamba2 and LLaDA, are also discussed in our framework. Consequently, this paper provides a theoretical framework for understanding LLMs from the perspective of semantic information theory, which also offers the necessary theoretical tools for further in-depth research.
PDF51December 2, 2025