ChatPaper.aiChatPaper

Física na Previsão da Próxima Palavra

Physics in Next-token Prediction

November 1, 2024
Autores: Hongjun An, Yiliang Song, Xuelong Li
cs.AI

Resumo

Descobrimos a física subjacente na Previsão do Próximo Token (PPT). Identificamos a lei da conservação da informação dentro da PPT e propusemos a Primeira Lei da Capacidade de Informação (CI-1), demonstrando que a essência da emergência da inteligência em modelos autorregressivos é fundamentalmente um processo de transferência de informação. Também introduzimos o Princípio de Landauer na PPT, formulando a Segunda Lei da Capacidade de Informação (CI-2), que estabelece a relação entre o treinamento de modelos autorregressivos e o consumo de energia. Além disso, apresentamos vários corolários, que possuem significado prático para práticas de produção. Por fim, validamos a compatibilidade e complementaridade de nossas descobertas com teorias existentes.
English
We discovered the underlying physics in Next-token Prediction (NTP). We identified the law of information conservation within NTP and proposed the First Law of Information Capacity (IC-1), demonstrating that the essence of intelligence emergence in auto-regressive models is fundamentally a process of information transfer. We also introduced Landauer's Principle into NTP, formulating the Second Law of Information Capacity (IC-2), which establishes the relationship between auto-regressive model training and energy consumption. Additionally, we presented several corollaries, which hold practical significance for production practices. Finally, we validated the compatibility and complementarity of our findings with existing theories.

Summary

AI-Generated Summary

PDF143November 13, 2024