ChatPaper.aiChatPaper

Aprimorando a Competência Linguística de Modelos de Linguagem por Meio de Pré-treinamento com Tarefas de Aprendizado de Línguas

Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks

January 6, 2026
Autores: Atsuki Yamaguchi, Maggie Mi, Nikolaos Aletras
cs.AI

Resumo

Os modelos de linguagem (MLs) são pré-treinados em conjuntos de dados de texto bruto para gerar sequências textuais token a token. Embora esta abordagem facilite a aprendizagem de conhecimento mundial e raciocínio, não otimiza explicitamente a competência linguística. Para colmatar esta lacuna, propomos o L2T, uma estrutura de pré-treinamento que integra Tarefas de Aprendizagem de Linguagem juntamente com a previsão padrão do próximo token. Inspirado pela aquisição da linguagem humana, o L2T transforma texto bruto em pares estruturados de entrada-saída para fornecer estimulação linguística explícita. O pré-treinamento de MLs com uma mistura de texto bruto e dados L2T não só melhora o desempenho geral em benchmarks de competência linguística, como acelera a sua aquisição, mantendo simultaneamente um desempenho competitivo em tarefas de raciocínio geral.
English
Language models (LMs) are pre-trained on raw text datasets to generate text sequences token-by-token. While this approach facilitates the learning of world knowledge and reasoning, it does not explicitly optimize for linguistic competence. To bridge this gap, we propose L2T, a pre-training framework integrating Language Learning Tasks alongside standard next-token prediction. Inspired by human language acquisition, L2T transforms raw text into structured input-output pairs to provide explicit linguistic stimulation. Pre-training LMs on a mixture of raw text and L2T data not only improves overall performance on linguistic competence benchmarks but accelerates its acquisition, while maintaining competitive performance on general reasoning tasks.
PDF122February 7, 2026