Entraînement des modèles de langage par automates cellulaires neuronaux

Résumé

Le pré-entraînement est crucial pour les grands modèles de langage (LLM), car c'est à cette étape que la plupart des représentations et capacités sont acquises. Cependant, le pré-entraînement sur langage naturel présente des problèmes : les textes de haute qualité sont limités, ils contiennent des biais humains, et ils entremêlent connaissances et raisonnement. Cela soulève une question fondamentale : le langage naturel est-il l'unique voie vers l'intelligence ? Nous proposons d'utiliser des automates cellulaires neuronaux (NCA) pour générer des données synthétiques non linguistiques pour le pré-pré-entraînement des LLM – un entraînement sur du langage synthétique puis naturel. Les données NCA présentent une riche structure spatio-temporelle et des statistiques similaires au langage naturel, tout en étant contrôlables et peu coûteuses à générer à grande échelle. Nous constatons qu'un pré-pré-entraînement sur seulement 164 millions de tokens NCA améliore la modélisation du langage en aval jusqu'à 6 % et accélère la convergence jusqu'à 1,6 fois. Étonnamment, cela surpasse même un pré-pré-entraînement sur 1,6 milliard de tokens de langage naturel issu de Common Crawl, avec plus de calcul. Ces gains se transfèrent également à des benchmarks de raisonnement, notamment GSM8K, HumanEval et BigBench-Lite. En étudiant ce qui favorise ce transfert, nous constatons que les couches d'attention sont les plus transférables, et que la complexité optimale des NCA varie selon le domaine : le code bénéficie de dynamiques plus simples, tandis que les mathématiques et le texte web favorisent des dynamiques plus complexes. Ces résultats permettent un réglage systématique de la distribution synthétique pour des domaines cibles. Plus largement, notre travail ouvre une voie vers des modèles plus efficaces avec un pré-entraînement entièrement synthétique.

English

Pre-training is crucial for large language models (LLMs), as it is when most representations and capabilities are acquired. However, natural language pre-training has problems: high-quality text is finite, it contains human biases, and it entangles knowledge with reasoning. This raises a fundamental question: is natural language the only path to intelligence? We propose using neural cellular automata (NCA) to generate synthetic, non-linguistic data for pre-pre-training LLMs--training on synthetic-then-natural language. NCA data exhibits rich spatiotemporal structure and statistics resembling natural language while being controllable and cheap to generate at scale. We find that pre-pre-training on only 164M NCA tokens improves downstream language modeling by up to 6% and accelerates convergence by up to 1.6x. Surprisingly, this even outperforms pre-pre-training on 1.6B tokens of natural language from Common Crawl with more compute. These gains also transfer to reasoning benchmarks, including GSM8K, HumanEval, and BigBench-Lite. Investigating what drives transfer, we find that attention layers are the most transferable, and that optimal NCA complexity varies by domain: code benefits from simpler dynamics, while math and web text favor more complex ones. These results enable systematic tuning of the synthetic distribution to target domains. More broadly, our work opens a path toward more efficient models with fully synthetic pre-training.

Entraînement des modèles de langage par automates cellulaires neuronaux

Training Language Models via Neural Cellular Automata

Résumé

Support