Física na Previsão da Próxima Palavra
Physics in Next-token Prediction
November 1, 2024
Autores: Hongjun An, Yiliang Song, Xuelong Li
cs.AI
Resumo
Descobrimos a física subjacente na Previsão do Próximo Token (PPT). Identificamos a lei da conservação da informação dentro da PPT e propusemos a Primeira Lei da Capacidade de Informação (CI-1), demonstrando que a essência da emergência da inteligência em modelos autorregressivos é fundamentalmente um processo de transferência de informação. Também introduzimos o Princípio de Landauer na PPT, formulando a Segunda Lei da Capacidade de Informação (CI-2), que estabelece a relação entre o treinamento de modelos autorregressivos e o consumo de energia. Além disso, apresentamos vários corolários, que possuem significado prático para práticas de produção. Por fim, validamos a compatibilidade e complementaridade de nossas descobertas com teorias existentes.
English
We discovered the underlying physics in Next-token Prediction (NTP). We
identified the law of information conservation within NTP and proposed the
First Law of Information Capacity (IC-1), demonstrating that the essence of
intelligence emergence in auto-regressive models is fundamentally a process of
information transfer. We also introduced Landauer's Principle into NTP,
formulating the Second Law of Information Capacity (IC-2), which establishes
the relationship between auto-regressive model training and energy consumption.
Additionally, we presented several corollaries, which hold practical
significance for production practices. Finally, we validated the compatibility
and complementarity of our findings with existing theories.Summary
AI-Generated Summary