Повышение лингвистической компетенции языковых моделей посредством предобучения на задачах изучения языка
Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks
January 6, 2026
Авторы: Atsuki Yamaguchi, Maggie Mi, Nikolaos Aletras
cs.AI
Аннотация
Языковые модели предварительно обучаются на сырых текстовых данных для генерации текстовых последовательностей токен за токеном. Хотя такой подход способствует усвоению знаний о мире и развитию навыков рассуждения, он не предусматривает явной оптимизации лингвистической компетенции. Для устранения этого пробела мы предлагаем L2T — фреймворк предварительного обучения, интегрирующий задачи изучения языка вместе со стандартным прогнозированием следующего токена. Вдохновлённый процессом усвоения языка человеком, L2T преобразует исходный текст в структурированные пары «вход-выход», обеспечивая явную лингвистическую стимуляцию. Предварительное обучение языковых моделей на смеси сырого текста и данных L2T не только повышает общую производительность на тестах лингвистической компетенции, но и ускоряет её приобретение, сохраняя при этом конкурентоспособные результаты в задачах общего рассуждения.
English
Language models (LMs) are pre-trained on raw text datasets to generate text sequences token-by-token. While this approach facilitates the learning of world knowledge and reasoning, it does not explicitly optimize for linguistic competence. To bridge this gap, we propose L2T, a pre-training framework integrating Language Learning Tasks alongside standard next-token prediction. Inspired by human language acquisition, L2T transforms raw text into structured input-output pairs to provide explicit linguistic stimulation. Pre-training LMs on a mixture of raw text and L2T data not only improves overall performance on linguistic competence benchmarks but accelerates its acquisition, while maintaining competitive performance on general reasoning tasks.