언어 학습 과제를 통한 사전 학습으로 언어 모델의 언어 능력 향상하기
Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks
January 6, 2026
저자: Atsuki Yamaguchi, Maggie Mi, Nikolaos Aletras
cs.AI
초록
언어 모델(LM)은 텍스트 시퀀스를 토큰 단위로 생성하기 위해 원시 텍스트 데이터셋으로 사전 학습됩니다. 이러한 접근 방식은 세계 지식과 추론 능력 학습에는 효과적이지만, 언어 능력을 명시적으로 최적화하지는 않습니다. 이러한 격차를 해소하기 위해 우리는 표준 다음 토큰 예측과 함께 언어 학습 과제를 통합한 사전 학습 프레임워크인 L2T를 제안합니다. 인간의 언어 습득에서 영감을 받은 L2T는 원시 텍스트를 구조화된 입력-출력 쌍으로 변환하여 명시적인 언어 자극을 제공합니다. 원시 텍스트와 L2T 데이터를 혼합하여 언어 모델을 사전 학습하면 언어 능력 벤치마크에서 전반적인 성능이 향상될 뿐만 아니라 습득 속도가 가속화되며, 일반적인 추론 과제에서도 경쟁력 있는 성능을 유지합니다.
English
Language models (LMs) are pre-trained on raw text datasets to generate text sequences token-by-token. While this approach facilitates the learning of world knowledge and reasoning, it does not explicitly optimize for linguistic competence. To bridge this gap, we propose L2T, a pre-training framework integrating Language Learning Tasks alongside standard next-token prediction. Inspired by human language acquisition, L2T transforms raw text into structured input-output pairs to provide explicit linguistic stimulation. Pre-training LMs on a mixture of raw text and L2T data not only improves overall performance on linguistic competence benchmarks but accelerates its acquisition, while maintaining competitive performance on general reasoning tasks.