Verbetering van de Linguïstische Competentie van Taalmodellen door Pre-training met Taalleertaken
Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks
January 6, 2026
Auteurs: Atsuki Yamaguchi, Maggie Mi, Nikolaos Aletras
cs.AI
Samenvatting
Taalmodellen (TM's) worden vooraf getraind op ruwe tekstdatasets om tekstsequenties token-voor-token te genereren. Hoewel deze aanpak het leren van wereldkennis en redeneervaardigheden vergemakkelijkt, optimaliseert het niet expliciet voor linguïstische competentie. Om deze kloof te overbruggen, stellen we L2T voor, een pre-trainingsraamwerk dat Taalverwervingstaken integreert naast standaard volgende-token-voorspelling. Geïnspireerd door menselijke taalverwerving, transformeert L2T ruwe tekst naar gestructureerde invoer-uitvoerparen om expliciete linguïstische stimulatie te bieden. Het pre-trainen van TM's op een mix van ruwe tekst en L2T-gegevens verbetert niet alleen de algemene prestaties op linguïstische competentiebenchmarks, maar versnelt ook de verwerving ervan, terwijl competitieve prestaties op algemene redeneertaken behouden blijven.
English
Language models (LMs) are pre-trained on raw text datasets to generate text sequences token-by-token. While this approach facilitates the learning of world knowledge and reasoning, it does not explicitly optimize for linguistic competence. To bridge this gap, we propose L2T, a pre-training framework integrating Language Learning Tasks alongside standard next-token prediction. Inspired by human language acquisition, L2T transforms raw text into structured input-output pairs to provide explicit linguistic stimulation. Pre-training LMs on a mixture of raw text and L2T data not only improves overall performance on linguistic competence benchmarks but accelerates its acquisition, while maintaining competitive performance on general reasoning tasks.