Migliorare la Competenza Linguistica dei Modelli Linguistici attraverso Pre-addestramento con Compiti di Apprendimento Linguistico

Abstract

I modelli linguistici (LM) vengono pre-addestrati su dataset di testo grezzo per generare sequenze testuali token per token. Sebbene questo approccio favorisca l'apprendimento di conoscenze enciclopediche e capacità di ragionamento, non ottimizza esplicitamente la competenza linguistica. Per colmare questa lacuna, proponiamo L2T, un framework di pre-addestramento che integra Attività di Apprendimento Linguistico insieme alla standard predizione del token successivo. Ispirandoci all'acquisizione del linguaggio umano, L2T trasforma il testo grezzo in coppie strutturate input-output per fornire una stimolazione linguistica esplicita. Il pre-addestramento di LM su una miscela di testo grezzo e dati L2T non solo migliora le prestazioni complessive sui benchmark di competenza linguistica, ma ne accelera l'acquisizione, mantenendo al contempo prestazioni competitive su compiti di ragionamento generale.

English

Language models (LMs) are pre-trained on raw text datasets to generate text sequences token-by-token. While this approach facilitates the learning of world knowledge and reasoning, it does not explicitly optimize for linguistic competence. To bridge this gap, we propose L2T, a pre-training framework integrating Language Learning Tasks alongside standard next-token prediction. Inspired by human language acquisition, L2T transforms raw text into structured input-output pairs to provide explicit linguistic stimulation. Pre-training LMs on a mixture of raw text and L2T data not only improves overall performance on linguistic competence benchmarks but accelerates its acquisition, while maintaining competitive performance on general reasoning tasks.

Migliorare la Competenza Linguistica dei Modelli Linguistici attraverso Pre-addestramento con Compiti di Apprendimento Linguistico

Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks

Abstract

Support