Amélioration de la compétence linguistique des modèles de langage par un pré-entraînement sur des tâches d'apprentissage des langues
Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks
January 6, 2026
papers.authors: Atsuki Yamaguchi, Maggie Mi, Nikolaos Aletras
cs.AI
papers.abstract
Les modèles de langage (LM) sont pré-entraînés sur des jeux de données textuelles brutes pour générer des séquences de texte token par token. Bien que cette approche facilite l'acquisition de connaissances générales et de capacités de raisonnement, elle n'optimise pas explicitement la compétence linguistique. Pour combler cette lacune, nous proposons L2T, un cadre de pré-entraînement intégrant des tâches d'apprentissage linguistique parallèlement à la prédiction standard du token suivant. Inspiré par l'acquisition du langage humain, L2T transforme le texte brut en paires structurées entrée-sortie pour fournir une stimulation linguistique explicite. Le pré-entraînement de modèles de langage sur un mélange de texte brut et de données L2T améliore non seulement les performances globales sur les benchmarks de compétence linguistique, mais accélère son acquisition, tout en maintenant des performances compétitives sur les tâches de raisonnement général.
English
Language models (LMs) are pre-trained on raw text datasets to generate text sequences token-by-token. While this approach facilitates the learning of world knowledge and reasoning, it does not explicitly optimize for linguistic competence. To bridge this gap, we propose L2T, a pre-training framework integrating Language Learning Tasks alongside standard next-token prediction. Inspired by human language acquisition, L2T transforms raw text into structured input-output pairs to provide explicit linguistic stimulation. Pre-training LMs on a mixture of raw text and L2T data not only improves overall performance on linguistic competence benchmarks but accelerates its acquisition, while maintaining competitive performance on general reasoning tasks.