Addestramento di Modelli Linguistici tramite Automi Cellulari Neurali

Abstract

Il pre-addestramento è cruciale per i grandi modelli linguistici (LLM), poiché è in questa fase che vengono acquisite la maggior parte delle rappresentazioni e delle capacità. Tuttavia, il pre-addestramento sul linguaggio naturale presenta dei problemi: il testo di alta qualità è finito, contiene bias umani e intreccia la conoscenza al ragionamento. Ciò solleva una questione fondamentale: il linguaggio naturale è l'unico percorso verso l'intelligenza? Proponiamo di utilizzare automi cellulari neurali (NCA) per generare dati sintetici e non linguistici per il pre-pre-addestramento degli LLM – un addestramento sequenziale su linguaggio sintetico e poi naturale. I dati NCA presentano una ricca struttura spazio-temporale e statistiche simili al linguaggio naturale, pur essendo controllabili ed economici da generare su larga scala. Abbiamo riscontrato che il pre-pre-addestramento su soli 164 milioni di token NCA migliora la modellazione linguistica a valle fino al 6% e accelera la convergenza fino a 1,6 volte. Sorprendentemente, questo supera persino il pre-pre-addestramento su 1,6 miliardi di token di linguaggio naturale da Common Crawl, nonostante un maggiore impiego computazionale. Questi vantaggi si trasferiscono anche a benchmark di ragionamento, tra cui GSM8K, HumanEval e BigBench-Lite. Indagando su cosa guidi il transfer, abbiamo scoperto che i livelli di attenzione sono i più trasferibili e che la complessità ottimale degli NCA varia a seconda del dominio: il codice beneficia di dinamiche più semplici, mentre la matematica e il testo web favoriscono dinamiche più complesse. Questi risultati consentono una regolazione sistematica della distribuzione sintetica per domini target. Più in generale, il nostro lavoro apre la strada verso modelli più efficienti con un pre-addestramento completamente sintetico.

English

Pre-training is crucial for large language models (LLMs), as it is when most representations and capabilities are acquired. However, natural language pre-training has problems: high-quality text is finite, it contains human biases, and it entangles knowledge with reasoning. This raises a fundamental question: is natural language the only path to intelligence? We propose using neural cellular automata (NCA) to generate synthetic, non-linguistic data for pre-pre-training LLMs--training on synthetic-then-natural language. NCA data exhibits rich spatiotemporal structure and statistics resembling natural language while being controllable and cheap to generate at scale. We find that pre-pre-training on only 164M NCA tokens improves downstream language modeling by up to 6% and accelerates convergence by up to 1.6x. Surprisingly, this even outperforms pre-pre-training on 1.6B tokens of natural language from Common Crawl with more compute. These gains also transfer to reasoning benchmarks, including GSM8K, HumanEval, and BigBench-Lite. Investigating what drives transfer, we find that attention layers are the most transferable, and that optimal NCA complexity varies by domain: code benefits from simpler dynamics, while math and web text favor more complex ones. These results enable systematic tuning of the synthetic distribution to target domains. More broadly, our work opens a path toward more efficient models with fully synthetic pre-training.

Addestramento di Modelli Linguistici tramite Automi Cellulari Neurali

Training Language Models via Neural Cellular Automata

Abstract

Support