Dimentica il BIT, è Tutta Questione di TOKEN: Verso una Teoria dell'Informazione Semantica per i Modelli Linguistici di Grande Dimensione
Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs
November 3, 2025
Autori: Bo Bai
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato capacità notevoli in numerose applicazioni del mondo reale. Sebbene la stragrande maggioranza della ricerca condotta da una prospettiva sperimentale stia progredendo rapidamente, essa richiede ingenti risorse computazionali, dati e altre risorse. Pertanto, come aprire la scatola nera degli LLM da un punto di vista teorico è diventata una sfida cruciale. Questo articolo prende le mosse dalla teoria della funzione tasso-distorsione, dall'informazione diretta e dalla causalità di Granger per indagare i principi teorici dell'informazione alla base degli LLM, portando allo sviluppo di una teoria dell'informazione semantica per gli LLM, in cui l'unità fondamentale è il token, piuttosto che i bit che sono privi di significato semantico. Definendo il modello probabilistico degli LLM, discutiamo misure teoriche dell'informazione indipendenti dalla struttura, come la funzione tasso-distorsione diretta nel pre-addestramento, la funzione tasso-ricompensa diretta nel post-addestramento e il flusso di informazione semantica nella fase di inferenza. Questo articolo approfondisce anche la teoria dell'incorporamento semantico a livello di token e il metodo di vettorializzazione ottimo in senso teorico dell'informazione. Successivamente, proponiamo una definizione generale di LLM autoregressivo, dalla quale è possibile derivare teoricamente l'architettura Transformer e le sue prestazioni, come l'ELBO, il limite dell'errore di generalizzazione, la capacità di memoria e le misure di informazione semantica. Altre architetture, come Mamba/Mamba2 e LLaDA, sono anch'esse discusse nel nostro quadro. Di conseguenza, questo articolo fornisce un quadro teorico per comprendere gli LLM dalla prospettiva della teoria dell'informazione semantica, che offre anche gli strumenti teorici necessari per ulteriori ricerche approfondite.
English
Large language models (LLMs) have demonstrated remarkable capabilities in
numerous real-world applications. While the vast majority of research conducted
from an experimental perspective is progressing rapidly, it demands substantial
computational power, data, and other resources. Therefore, how to open the
black-box of LLMs from a theoretical standpoint has become a critical
challenge. This paper takes the theory of rate-distortion function, directed
information, and Granger causality as its starting point to investigate the
information-theoretic principles behind LLMs, leading to the development of
semantic information theory for LLMs, where the fundamental unit is token,
rather than bits that lacks any semantic meaning. By defining the probabilistic
model of LLMs, we discuss structure-agnostic information-theoretic measures,
such as the directed rate-distortion function in pre-training, the directed
rate-reward function in post-training, and the semantic information flow in
inference phase. This paper also delves deeply into the theory of token-level
semantic embedding and the information-theoretically optimal vectorization
method. Thereafter, we propose a general definition of autoregression LLM,
where the Transformer architecture and its performance such as ELBO,
generalization error bound, memory capacity, and semantic information measures
can be derived theoretically. Other architectures, such as Mamba/Mamba2 and
LLaDA, are also discussed in our framework. Consequently, this paper provides a
theoretical framework for understanding LLMs from the perspective of semantic
information theory, which also offers the necessary theoretical tools for
further in-depth research.