Esqueça o BIT, Tudo se Resume ao TOKEN: Rumo a uma Teoria da Informação Semântica para LLMs

Resumo

Os modelos de linguagem de grande escala (LLMs) demonstraram capacidades notáveis em inúmeras aplicações do mundo real. Embora a grande maioria das pesquisas conduzidas a partir de uma perspectiva experimental esteja progredindo rapidamente, ela demanda poder computacional substancial, dados e outros recursos. Portanto, como abrir a caixa-preta dos LLMs do ponto de vista teórico tornou-se um desafio crítico. Este artigo toma a teoria da função taxa-distorção, informação direcionada e causalidade de Granger como ponto de partida para investigar os princípios da teoria da informação por trás dos LLMs, levando ao desenvolvimento de uma teoria da informação semântica para LLMs, onde a unidade fundamental é o *token*, e não os *bits* que carecem de qualquer significado semântico. Ao definir o modelo probabilístico dos LLMs, discutimos medidas da teoria da informação agnósticas à estrutura, como a função taxa-distorção direcionada no pré-treinamento, a função taxa-recompensa direcionada no pós-treinamento e o fluxo de informação semântica na fase de inferência. Este artigo também se aprofunda na teoria da incorporação semântica a nível de *token* e no método de vetorização ótimo do ponto de vista da teoria da informação. A partir daí, propomos uma definição geral de LLM autoregressivo, onde a arquitetura Transformer e seu desempenho, como ELBO, limite de erro de generalização, capacidade de memória e medidas de informação semântica, podem ser derivados teoricamente. Outras arquiteturas, como Mamba/Mamba2 e LLaDA, também são discutidas em nossa estrutura. Consequentemente, este artigo fornece uma estrutura teórica para compreender os LLMs a partir da perspectiva da teoria da informação semântica, o que também oferece as ferramentas teóricas necessárias para pesquisas aprofundadas futuras.

English

Large language models (LLMs) have demonstrated remarkable capabilities in numerous real-world applications. While the vast majority of research conducted from an experimental perspective is progressing rapidly, it demands substantial computational power, data, and other resources. Therefore, how to open the black-box of LLMs from a theoretical standpoint has become a critical challenge. This paper takes the theory of rate-distortion function, directed information, and Granger causality as its starting point to investigate the information-theoretic principles behind LLMs, leading to the development of semantic information theory for LLMs, where the fundamental unit is token, rather than bits that lacks any semantic meaning. By defining the probabilistic model of LLMs, we discuss structure-agnostic information-theoretic measures, such as the directed rate-distortion function in pre-training, the directed rate-reward function in post-training, and the semantic information flow in inference phase. This paper also delves deeply into the theory of token-level semantic embedding and the information-theoretically optimal vectorization method. Thereafter, we propose a general definition of autoregression LLM, where the Transformer architecture and its performance such as ELBO, generalization error bound, memory capacity, and semantic information measures can be derived theoretically. Other architectures, such as Mamba/Mamba2 and LLaDA, are also discussed in our framework. Consequently, this paper provides a theoretical framework for understanding LLMs from the perspective of semantic information theory, which also offers the necessary theoretical tools for further in-depth research.

Esqueça o BIT, Tudo se Resume ao TOKEN: Rumo a uma Teoria da Informação Semântica para LLMs

Forget BIT, It is All about TOKEN: Towards Semantic Information Theory for LLMs

Resumo

Support