Instructions fines : Mise à l'échelle d'instructions synthétiques à l'échelle du pré-entraînement
FineInstructions: Scaling Synthetic Instructions to Pre-Training Scale
January 29, 2026
papers.authors: Ajay Patel, Colin Raffel, Chris Callison-Burch
cs.AI
papers.abstract
En raison du manque de données supervisées pour l’entraînement, les grands modèles de langage (LLM) sont généralement pré-entraînés via un objectif auto-supervisé de « prédiction du mot suivant » sur une vaste quantité de données textuelles non structurées. Pour rendre le modèle ainsi obtenu utile aux utilisateurs, il est ensuite entraîné sur un volume bien plus restreint de données d’« ajustement aux instructions », constituées d’exemples supervisés d’instructions et de réponses. Pour pallier le manque de données supervisées, nous proposons une méthode permettant de transformer les connaissances contenues dans les documents de pré-entraînement à l’échelle du web en des milliards de paires synthétiques d’instructions et de réponses pour l’entraînement. Le jeu de données résultant, appelé FineInstructions, utilise environ 18 millions de modèles d’instructions créés à partir de requêtes et d’invites réelles rédigées par des utilisateurs. Ces modèles d’instructions sont appariés à des documents sources rédigés par des humains provenant de corpus de pré-entraînement non structurés, puis instanciés avec ceux-ci. Grâce à des données d’entraînement synthétiques « supervisées » générées à cette échelle, un LLM peut être pré-entraîné dès le départ uniquement avec l’objectif d’ajustement aux instructions, ce qui correspond bien mieux à la distribution attendue lors de l’utilisation en aval des LLM (répondre aux invites des utilisateurs). Nous menons des expériences d’entraînement contrôlées token par token et constatons que le pré-entraînement sur FineInstructions surpasse l’entraînement standard et d’autres techniques de pré-entraînement synthétique proposées, sur des benchmarks standards mesurant la qualité des réponses en forme libre. Nos ressources sont disponibles à l’adresse https://huggingface.co/fineinstructions.
English
Due to limited supervised training data, large language models (LLMs) are typically pre-trained via a self-supervised "predict the next word" objective on a vast amount of unstructured text data. To make the resulting model useful to users, it is further trained on a far smaller amount of "instruction-tuning" data comprised of supervised training examples of instructions and responses. To overcome the limited amount of supervised data, we propose a procedure that can transform the knowledge in internet-scale pre-training documents into billions of synthetic instruction and answer training pairs. The resulting dataset, called FineInstructions, uses ~18M instruction templates created from real user-written queries and prompts. These instruction templates are matched to and instantiated with human-written source documents from unstructured pre-training corpora. With "supervised" synthetic training data generated at this scale, an LLM can be pre-trained from scratch solely with the instruction-tuning objective, which is far more in-distribution with the expected downstream usage of LLMs (responding to user prompts). We conduct controlled token-for-token training experiments and find pre-training on FineInstructions outperforms standard pre-training and other proposed synthetic pre-training techniques on standard benchmarks measuring free-form response quality. Our resources can be found at https://huggingface.co/fineinstructions .