Het trainen van taalmodellen via neurale cellulaire automaten

Samenvatting

Pre-training is van cruciaal belang voor grote taalmmodellen (LLM's), omdat dit de fase is waarin de meeste representaties en capaciteiten worden verworven. Natuurlijke taal als pre-trainingsmateriaal kent echter problemen: hoogwaardige tekst is beperkt beschikbaar, het bevat menselijke vooroordelen, en het verstrengelt kennis met redeneervaardigheid. Dit roept een fundamentele vraag op: is natuurlijke taal de enige weg naar intelligentie? Wij stellen voor om neurale cellulaire automata (NCA's) te gebruiken om synthetische, niet-linguïstische data te genereren voor het *pre-pre-trainen* van LLM's – een training eerst op synthetische en daarna op natuurlijke taal. NCA-data vertoont een rijke spatiotemporele structuur en statistieken die lijken op natuurlijke taal, terwijl het beheersbaar en goedkoop is om op grote schaal te genereren. Wij ontdekken dat pre-pre-training op slechts 164 miljoen NCA-tokens de downstream taalmodelprestaties met tot 6% verbetert en de convergentie versnelt met een factor tot 1,6. Verrassend genoeg overtreft dit zelfs pre-pre-training op 1,6 miljard tokens natuurlijke taal van Common Crawl met meer rekenkracht. Deze winst strekt zich ook uit naar redeneerbenchmarks, waaronder GSM8K, HumanEval en BigBench-Lite. Door te onderzoeken wat de transfer veroorzaakt, vinden we dat aandachtlagen het meest overdraagbaar zijn, en dat de optimale NCA-complexiteit per domein varieert: code heeft baat bij eenvoudigere dynamiek, terwijl wiskunde en webtekst complexere dynamiek prefereren. Deze resultaten maken een systematische afstemming van de synthetische distributie op doeldomeinen mogelijk. In bredere zin opent ons werk een weg naar efficiëntere modellen met volledig synthetische pre-training.

English

Pre-training is crucial for large language models (LLMs), as it is when most representations and capabilities are acquired. However, natural language pre-training has problems: high-quality text is finite, it contains human biases, and it entangles knowledge with reasoning. This raises a fundamental question: is natural language the only path to intelligence? We propose using neural cellular automata (NCA) to generate synthetic, non-linguistic data for pre-pre-training LLMs--training on synthetic-then-natural language. NCA data exhibits rich spatiotemporal structure and statistics resembling natural language while being controllable and cheap to generate at scale. We find that pre-pre-training on only 164M NCA tokens improves downstream language modeling by up to 6% and accelerates convergence by up to 1.6x. Surprisingly, this even outperforms pre-pre-training on 1.6B tokens of natural language from Common Crawl with more compute. These gains also transfer to reasoning benchmarks, including GSM8K, HumanEval, and BigBench-Lite. Investigating what drives transfer, we find that attention layers are the most transferable, and that optimal NCA complexity varies by domain: code benefits from simpler dynamics, while math and web text favor more complex ones. These results enable systematic tuning of the synthetic distribution to target domains. More broadly, our work opens a path toward more efficient models with fully synthetic pre-training.

Het trainen van taalmodellen via neurale cellulaire automaten

Training Language Models via Neural Cellular Automata

Samenvatting

Support