Training Language Models via Neural Cellular Automata

Zusammenfassung

Pre-Training ist entscheidend für große Sprachmodelle (LLMs), da hierbei der Großteil der Repräsentationen und Fähigkeiten erworben wird. Allerdings weist das natürliche Sprach-Pre-Training Probleme auf: Hochwertige Texte sind begrenzt verfügbar, sie enthalten menschliche Verzerrungen (Biases) und vermengen Wissen mit logischem Denken. Dies wirft eine grundlegende Frage auf: Ist natürliche Sprache der einzige Weg zu Intelligenz? Wir schlagen vor, neuronale zelluläre Automaten (NCA) zu nutzen, um synthetische, nicht-sprachliche Daten für ein Pre-Pre-Training von LLMs zu erzeugen – also ein Training auf synthetischer, gefolgt von natürlicher Sprache. NCA-Daten weisen eine reiche raumzeitliche Struktur und Statistik auf, die der natürlichen Sprache ähnelt, sind dabei aber kontrollierbar und in großem Maßstab kostengünstig zu generieren. Wir stellen fest, dass ein Pre-Pre-Training mit nur 164M NCA-Tokens die nachgelagerte Sprachmodellierung um bis zu 6 % verbessert und die Konvergenz um das bis zu 1,6-fache beschleunigt. Überraschenderweise übertrifft dies sogar ein Pre-Pre-Training mit 1,6B Tokens natürlicher Sprache aus Common Crawl bei höherem Rechenaufwand. Diese Gewinne übertragen sich auch auf Reasoning-Benchmarks, einschließlich GSM8K, HumanEval und BigBench-Lite. Bei der Untersuchung der Ursachen für diese Übertragbarkeit stellen wir fest, dass Attention-Schichten am übertragbarsten sind und dass die optimale NCA-Komplexität je nach Domäne variiert: Code profitiert von einfacheren Dynamiken, während Mathematik und Webtexte komplexere bevorzugen. Diese Ergebnisse ermöglichen eine systematische Abstimmung der synthetischen Verteilung auf Zielbereiche. Weiter gefasst eröffnet unsere Arbeit einen Weg zu effizienteren Modellen mit vollständig synthetischem Pre-Training.

English

Pre-training is crucial for large language models (LLMs), as it is when most representations and capabilities are acquired. However, natural language pre-training has problems: high-quality text is finite, it contains human biases, and it entangles knowledge with reasoning. This raises a fundamental question: is natural language the only path to intelligence? We propose using neural cellular automata (NCA) to generate synthetic, non-linguistic data for pre-pre-training LLMs--training on synthetic-then-natural language. NCA data exhibits rich spatiotemporal structure and statistics resembling natural language while being controllable and cheap to generate at scale. We find that pre-pre-training on only 164M NCA tokens improves downstream language modeling by up to 6% and accelerates convergence by up to 1.6x. Surprisingly, this even outperforms pre-pre-training on 1.6B tokens of natural language from Common Crawl with more compute. These gains also transfer to reasoning benchmarks, including GSM8K, HumanEval, and BigBench-Lite. Investigating what drives transfer, we find that attention layers are the most transferable, and that optimal NCA complexity varies by domain: code benefits from simpler dynamics, while math and web text favor more complex ones. These results enable systematic tuning of the synthetic distribution to target domains. More broadly, our work opens a path toward more efficient models with fully synthetic pre-training.