ChatPaper.aiChatPaper

Mejora de la Competencia Lingüística de Modelos de Lenguaje mediante Preentrenamiento con Tareas de Aprendizaje de Idiomas

Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks

January 6, 2026
Autores: Atsuki Yamaguchi, Maggie Mi, Nikolaos Aletras
cs.AI

Resumen

Los modelos de lenguaje (LM) se preentrenan en conjuntos de datos de texto sin procesar para generar secuencias textuales token por token. Si bien este enfoque facilita el aprendizaje de conocimiento del mundo y razonamiento, no optimiza explícitamente la competencia lingüística. Para cerrar esta brecha, proponemos L2T, un marco de preentrenamiento que integra Tareas de Aprendizaje de Lenguaje junto con la predicción estándar del siguiente token. Inspirado en la adquisición del lenguaje humano, L2T transforma texto sin procesar en pares estructurados de entrada-salida para proporcionar estímulo lingüístico explícito. El preentrenamiento de LM con una mezcla de texto sin procesar y datos L2T no solo mejora el rendimiento general en benchmarks de competencia lingüística, sino que acelera su adquisición, manteniendo al mismo tiempo un rendimiento competitivo en tareas de razonamiento general.
English
Language models (LMs) are pre-trained on raw text datasets to generate text sequences token-by-token. While this approach facilitates the learning of world knowledge and reasoning, it does not explicitly optimize for linguistic competence. To bridge this gap, we propose L2T, a pre-training framework integrating Language Learning Tasks alongside standard next-token prediction. Inspired by human language acquisition, L2T transforms raw text into structured input-output pairs to provide explicit linguistic stimulation. Pre-training LMs on a mixture of raw text and L2T data not only improves overall performance on linguistic competence benchmarks but accelerates its acquisition, while maintaining competitive performance on general reasoning tasks.
PDF31January 9, 2026