ChatPaper.aiChatPaper

CLASS-IT: BabyLMs를 위한 대화 및 강의 정렬 소규모 지시 튜닝

CLASS-IT: Conversational and Lecture-Aligned Small-Scale Instruction Tuning for BabyLMs

October 29, 2025
저자: Luca Capone, Alessandro Bondielli, Alessandro Lenci
cs.AI

초록

본 연구는 소규모 언어 모델(LM)이 지시어 튜닝으로부터 이점을 얻을 수 있는지 탐구한다. 우리는 대화형 및 질의응답형 지시어 튜닝 데이터셋을 병합 방식과 순차적 커리큘럼 방식으로 적용하여 1억 개와 1.4억 개 매개변수를 가진 디코더 전용 모델을 비교한다. 평가는 미세 조정(SuperGLUE)과 제로샷(BLiMP, EWoK, WUGs, 개체 추적, 심리언어학적 상관관계) 설정 모두를 포괄한다. 결과에 따르면 지시어 튜닝은 미세 조정 시나리오에서 작지만 일관된 성능 향상을 가져오며, 순차적 커리큘럼이 병합 데이터보다 우수한 것으로 나타났다. 그러나 이러한 개선 효과가 제로샷 과제로 일관되게 전이되지는 않아, 상호작용 중심 적응과 광범위한 언어적 일반화 사이에 트레이드오프가 존재함을 시사한다. 이러한 결과는 인간의 학습 전략을 저자원 언어 모델에 적용하는 것의 잠재력과 한계를 동시에 부각하며, 생태학적 훈련 제약 조건 내에서 일반화 능력을 향상시키기 위한 혼합형 커리큘럼 접근법의 방향을 제시한다.
English
This work investigates whether small-scale LMs can benefit from instruction tuning. We compare conversational and question-answering instruction tuning datasets, applied either in a merged or sequential curriculum, using decoder-only models with 100M and 140M parameters. Evaluation spans both fine-tuning (SuperGLUE) and zero-shot (BLiMP, EWoK, WUGs, entity tracking, and psycholinguistic correlation) settings. Results show that instruction tuning yields small but consistent gains in fine-tuning scenarios, with sequential curricula outperforming merged data; however, improvements do not consistently transfer to zero-shot tasks, suggesting a trade-off between interaction-focused adaptation and broad linguistic generalization. These results highlight both the potential and the constraints of adapting human-inspired learning strategies to low-resource LMs, and point toward hybrid, curriculum-based approaches for enhancing generalization under ecological training limits.
PDF41December 2, 2025