### 파인 인스트럭션: 사전 학습 규모로 확장된 합성 지시문
FineInstructions: Scaling Synthetic Instructions to Pre-Training Scale
January 29, 2026
저자: Ajay Patel, Colin Raffel, Chris Callison-Burch
cs.AI
초록
감독 학습 훈련 데이터의 한계로 인해 대규모 언어 모델(LLM)은 일반적으로 방대한 양의 비정형 텍스트 데이터에 대해 자기 감독 방식의 "다음 단어 예측" 목표를 통해 사전 훈련됩니다. 결과 모델을 사용자에게 유용하게 만들기 위해, 지시와 응답으로 구성된 감독 학습 예제인 훨씬 적은 양의 "지시 튜닝" 데이터를 추가로 학습합니다. 감독 데이터의 부족을 극복하기 위해, 우리는 인터넷 규모의 사전 훈련 문서에 있는 지식을 수십억 개의 합성 지시 및 응답 훈련 쌍으로 변환하는 절차를 제안합니다. 그 결과 생성된 FineInstructions라는 데이터셋은 실제 사용자가 작성한 쿼리와 프롬프트로부터 생성된 약 1,800만 개의 지시 템플릿을 사용합니다. 이러한 지시 템플릿은 비정형 사전 훈련 코퍼스의 인간이 작성한 소스 문서와 매칭되어 구체적인 내용으로 채워집니다. 이러한 규모로 생성된 "감독" 합성 훈련 데이터를 통해, LLM은 지시 튜닝 목표만으로 처음부터 사전 훈련될 수 있으며, 이는 LLM의 예상 다운스트림 사용(사용자 프롬프트에 응답)과 분포 상 훨씬 더 일치합니다. 우리는 토큰 수준에서 통제된 훈련 실험을 수행했으며, FineInstructions를 이용한 사전 훈련이 자유 형식 응답 품질을 측정하는 표준 벤치마크에서 표준 사전 훈련 및 다른 제안된 합성 사전 훈련 기법들을 능가함을 확인했습니다. 우리의 리소스는 https://huggingface.co/fineinstructions 에서 확인할 수 있습니다.
English
Due to limited supervised training data, large language models (LLMs) are typically pre-trained via a self-supervised "predict the next word" objective on a vast amount of unstructured text data. To make the resulting model useful to users, it is further trained on a far smaller amount of "instruction-tuning" data comprised of supervised training examples of instructions and responses. To overcome the limited amount of supervised data, we propose a procedure that can transform the knowledge in internet-scale pre-training documents into billions of synthetic instruction and answer training pairs. The resulting dataset, called FineInstructions, uses ~18M instruction templates created from real user-written queries and prompts. These instruction templates are matched to and instantiated with human-written source documents from unstructured pre-training corpora. With "supervised" synthetic training data generated at this scale, an LLM can be pre-trained from scratch solely with the instruction-tuning objective, which is far more in-distribution with the expected downstream usage of LLMs (responding to user prompts). We conduct controlled token-for-token training experiments and find pre-training on FineInstructions outperforms standard pre-training and other proposed synthetic pre-training techniques on standard benchmarks measuring free-form response quality. Our resources can be found at https://huggingface.co/fineinstructions .