ChatPaper.aiChatPaper

Повышение лингвистической компетенции языковых моделей посредством предобучения на задачах изучения языка

Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks

January 6, 2026
Авторы: Atsuki Yamaguchi, Maggie Mi, Nikolaos Aletras
cs.AI

Аннотация

Языковые модели предварительно обучаются на сырых текстовых данных для генерации текстовых последовательностей токен за токеном. Хотя такой подход способствует усвоению знаний о мире и развитию навыков рассуждения, он не предусматривает явной оптимизации лингвистической компетенции. Для устранения этого пробела мы предлагаем L2T — фреймворк предварительного обучения, интегрирующий задачи изучения языка вместе со стандартным прогнозированием следующего токена. Вдохновлённый процессом усвоения языка человеком, L2T преобразует исходный текст в структурированные пары «вход-выход», обеспечивая явную лингвистическую стимуляцию. Предварительное обучение языковых моделей на смеси сырого текста и данных L2T не только повышает общую производительность на тестах лингвистической компетенции, но и ускоряет её приобретение, сохраняя при этом конкурентоспособные результаты в задачах общего рассуждения.
English
Language models (LMs) are pre-trained on raw text datasets to generate text sequences token-by-token. While this approach facilitates the learning of world knowledge and reasoning, it does not explicitly optimize for linguistic competence. To bridge this gap, we propose L2T, a pre-training framework integrating Language Learning Tasks alongside standard next-token prediction. Inspired by human language acquisition, L2T transforms raw text into structured input-output pairs to provide explicit linguistic stimulation. Pre-training LMs on a mixture of raw text and L2T data not only improves overall performance on linguistic competence benchmarks but accelerates its acquisition, while maintaining competitive performance on general reasoning tasks.
PDF31January 9, 2026