ChatPaper.aiChatPaper

Verbesserung der linguistischen Kompetenz von Sprachmodellen durch Pre-training mit Sprachlernaufgaben

Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks

January 6, 2026
papers.authors: Atsuki Yamaguchi, Maggie Mi, Nikolaos Aletras
cs.AI

papers.abstract

Sprachmodelle (LMs) werden auf Rohtextdatensätzen vortrainiert, um Textsequenzen Token für Token zu generieren. Während dieser Ansatz das Erlernen von Weltwissen und logischem Denken fördert, optimiert er nicht explizit die Sprachkompetenz. Um diese Lücke zu schließen, schlagen wir L2T vor, ein Vortrainierungsframework, das Sprachlernaufgaben (Language Learning Tasks) in die standardmäßige Next-Token-Prediction integriert. Inspiriert vom menschlichen Spracherwerb wandelt L2T Rohtext in strukturierte Eingabe-Ausgabe-Paare um, um explizite linguistische Stimulation zu bieten. Die Vortrainierung von LMs auf einer Mischung aus Rohtext und L2T-Daten verbessert nicht nur die Gesamtleistung in Sprachkompetenz-Benchmarks, sondern beschleunigt auch deren Erwerb, bei gleichzeitig wettbewerbsfähiger Leistung in allgemeinen Reasoning-Aufgaben.
English
Language models (LMs) are pre-trained on raw text datasets to generate text sequences token-by-token. While this approach facilitates the learning of world knowledge and reasoning, it does not explicitly optimize for linguistic competence. To bridge this gap, we propose L2T, a pre-training framework integrating Language Learning Tasks alongside standard next-token prediction. Inspired by human language acquisition, L2T transforms raw text into structured input-output pairs to provide explicit linguistic stimulation. Pre-training LMs on a mixture of raw text and L2T data not only improves overall performance on linguistic competence benchmarks but accelerates its acquisition, while maintaining competitive performance on general reasoning tasks.
PDF31January 9, 2026