Aprimorando a Competência Linguística de Modelos de Linguagem por Meio de Pré-treinamento com Tarefas de Aprendizado de Línguas

Resumo

Os modelos de linguagem (MLs) são pré-treinados em conjuntos de dados de texto bruto para gerar sequências textuais token a token. Embora esta abordagem facilite a aprendizagem de conhecimento mundial e raciocínio, não otimiza explicitamente a competência linguística. Para colmatar esta lacuna, propomos o L2T, uma estrutura de pré-treinamento que integra Tarefas de Aprendizagem de Linguagem juntamente com a previsão padrão do próximo token. Inspirado pela aquisição da linguagem humana, o L2T transforma texto bruto em pares estruturados de entrada-saída para fornecer estimulação linguística explícita. O pré-treinamento de MLs com uma mistura de texto bruto e dados L2T não só melhora o desempenho geral em benchmarks de competência linguística, como acelera a sua aquisição, mantendo simultaneamente um desempenho competitivo em tarefas de raciocínio geral.

English

Language models (LMs) are pre-trained on raw text datasets to generate text sequences token-by-token. While this approach facilitates the learning of world knowledge and reasoning, it does not explicitly optimize for linguistic competence. To bridge this gap, we propose L2T, a pre-training framework integrating Language Learning Tasks alongside standard next-token prediction. Inspired by human language acquisition, L2T transforms raw text into structured input-output pairs to provide explicit linguistic stimulation. Pre-training LMs on a mixture of raw text and L2T data not only improves overall performance on linguistic competence benchmarks but accelerates its acquisition, while maintaining competitive performance on general reasoning tasks.

Aprimorando a Competência Linguística de Modelos de Linguagem por Meio de Pré-treinamento com Tarefas de Aprendizado de Línguas

Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks

Resumo

Support