Treinamento de Modelos de Linguagem por meio de Autômatos Celulares Neurais

Resumo

O pré-treinamento é crucial para grandes modelos de linguagem (LLMs), pois é quando a maioria das representações e capacidades são adquiridas. No entanto, o pré-treinamento em linguagem natural tem problemas: o texto de alta qualidade é finito, contém vieses humanos e entrelaça conhecimento com raciocínio. Isto levanta uma questão fundamental: a linguagem natural é o único caminho para a inteligência? Propomos a utilização de autômatos celulares neurais (NCA) para gerar dados sintéticos e não linguísticos para o pré-pré-treinamento de LLMs – um treinamento em linguagem sintética seguida de linguagem natural. Os dados de NCA exibem uma rica estrutura espaço-temporal e estatísticas semelhantes às da linguagem natural, sendo ao mesmo tempo controláveis e baratos para gerar em escala. Descobrimos que o pré-pré-treinamento com apenas 164 milhões de tokens de NCA melhora a modelagem de linguagem downstream em até 6% e acelera a convergência em até 1,6 vezes. Surpreendentemente, isto supera até mesmo o pré-pré-treinamento com 1,6 mil milhões de tokens de linguagem natural do Common Crawl, que requer mais poder computacional. Estes ganhos também se transferem para benchmarks de raciocínio, incluindo GSM8K, HumanEval e BigBench-Lite. Investigando o que impulsiona a transferência, descobrimos que as camadas de atenção são as mais transferíveis e que a complexidade ideal do NCA varia conforme o domínio: o código beneficia de dinâmicas mais simples, enquanto a matemática e o texto da web preferem dinâmicas mais complexas. Estes resultados permitem um ajuste sistemático da distribuição sintética para domínios específicos. De forma mais ampla, o nosso trabalho abre um caminho para modelos mais eficientes com pré-treinamento totalmente sintético.

English

Pre-training is crucial for large language models (LLMs), as it is when most representations and capabilities are acquired. However, natural language pre-training has problems: high-quality text is finite, it contains human biases, and it entangles knowledge with reasoning. This raises a fundamental question: is natural language the only path to intelligence? We propose using neural cellular automata (NCA) to generate synthetic, non-linguistic data for pre-pre-training LLMs--training on synthetic-then-natural language. NCA data exhibits rich spatiotemporal structure and statistics resembling natural language while being controllable and cheap to generate at scale. We find that pre-pre-training on only 164M NCA tokens improves downstream language modeling by up to 6% and accelerates convergence by up to 1.6x. Surprisingly, this even outperforms pre-pre-training on 1.6B tokens of natural language from Common Crawl with more compute. These gains also transfer to reasoning benchmarks, including GSM8K, HumanEval, and BigBench-Lite. Investigating what drives transfer, we find that attention layers are the most transferable, and that optimal NCA complexity varies by domain: code benefits from simpler dynamics, while math and web text favor more complex ones. These results enable systematic tuning of the synthetic distribution to target domains. More broadly, our work opens a path toward more efficient models with fully synthetic pre-training.

Treinamento de Modelos de Linguagem por meio de Autômatos Celulares Neurais

Training Language Models via Neural Cellular Automata

Resumo

Support