Обучение языковых моделей с помощью нейронных клеточных автоматов

Аннотация

Предварительное обучение играет ключевую роль для больших языковых моделей (LLM), поскольку именно в этот период формируется большинство репрезентаций и способностей. Однако у предварительного обучения на естественном языке есть проблемы: высококачественные тексты ограничены, они содержат человеческие предубеждения и переплетают знания с логическими рассуждениями. Это поднимает фундаментальный вопрос: является ли естественный язык единственным путем к интеллекту? Мы предлагаем использовать нейронные клеточные автоматы (NCA) для генерации синтетических нелингвистических данных для предварительного предобучения LLM — обучения сначала на синтетическом, а затем на естественном языке. Данные NCA демонстрируют богатую пространственно-временную структуру и статистику, сходную с естественным языком, при этом они управляемы и дешевы в массовом生成. Мы обнаружили, что предварительное предобучение всего на 164 млн токенов NCA улучшает последующее языковое моделирование до 6% и ускоряет сходимость до 1,6 раза. Удивительно, но это превосходит даже предварительное предобучение на 1,6 млрд токенов естественного языка из Common Crawl с большими вычислительными затратами. Эти преимущества также переносятся на тесты логических рассуждений, включая GSM8K, HumanEval и BigBench-Lite. Исследуя причины переноса, мы выяснили, что слои внимания являются наиболее переносимыми, а оптимальная сложность NCA варьируется в зависимости от домена: код выигрывает от более простой динамики, тогда как математика и веб-тексты предпочитают более сложную. Эти результаты позволяют систематически настраивать синтетическое распределение под целевые домены. В более широком смысле наша работа открывает путь к созданию более эффективных моделей с полностью синтетическим предварительным обучением.

English

Pre-training is crucial for large language models (LLMs), as it is when most representations and capabilities are acquired. However, natural language pre-training has problems: high-quality text is finite, it contains human biases, and it entangles knowledge with reasoning. This raises a fundamental question: is natural language the only path to intelligence? We propose using neural cellular automata (NCA) to generate synthetic, non-linguistic data for pre-pre-training LLMs--training on synthetic-then-natural language. NCA data exhibits rich spatiotemporal structure and statistics resembling natural language while being controllable and cheap to generate at scale. We find that pre-pre-training on only 164M NCA tokens improves downstream language modeling by up to 6% and accelerates convergence by up to 1.6x. Surprisingly, this even outperforms pre-pre-training on 1.6B tokens of natural language from Common Crawl with more compute. These gains also transfer to reasoning benchmarks, including GSM8K, HumanEval, and BigBench-Lite. Investigating what drives transfer, we find that attention layers are the most transferable, and that optimal NCA complexity varies by domain: code benefits from simpler dynamics, while math and web text favor more complex ones. These results enable systematic tuning of the synthetic distribution to target domains. More broadly, our work opens a path toward more efficient models with fully synthetic pre-training.

Обучение языковых моделей с помощью нейронных клеточных автоматов

Training Language Models via Neural Cellular Automata

Аннотация

Support