ChatPaper.aiChatPaper

Feinabstimmung von Anweisungen: Skalierung synthetischer Anweisungen auf Pre-Training-Maßstab

FineInstructions: Scaling Synthetic Instructions to Pre-Training Scale

January 29, 2026
papers.authors: Ajay Patel, Colin Raffel, Chris Callison-Burch
cs.AI

papers.abstract

Aufgrund begrenzter überwachter Trainingsdaten werden große Sprachmodelle (LLMs) typischerweise durch ein selbstüberwachtes „Vorhersagen des nächsten Wortes“-Lernziel auf einer großen Menge unstrukturierter Textdaten vortrainiert. Um das resultierende Modell für Nutzer nützlich zu machen, wird es anschließend mit einer deutlich geringeren Menge an „Instruction-Tuning“-Daten weiter trainiert, die aus überwachten Trainingsbeispielen von Anweisungen und Antworten bestehen. Um die begrenzte Menge an überwachten Daten zu überwinden, schlagen wir ein Verfahren vor, das das Wissen in internetgroßen Vortrainingsdokumenten in Milliarden von synthetischen Trainingspaaren aus Anweisungen und Antworten umwandeln kann. Der resultierende Datensatz, genannt FineInstructions, verwendet etwa 18 Millionen Anweisungsvorlagen, die aus echten, von Nutzern verfassten Abfragen und Prompts erstellt wurden. Diese Anweisungsvorlagen werden mit von Menschen geschriebenen Quelldokumenten aus unstrukturierten Vortrainingskorpora abgeglichen und instanziiert. Mit synthetischen „überwachten“ Trainingsdaten, die in diesem Umfang generiert werden, kann ein LLM von Grund auf ausschließlich mit dem Instruction-Tuning-Ziel vortrainiert werden, was erheblich näher an der erwarteten Downstream-Nutzung von LLMs liegt (Reaktion auf Nutzer-Prompts). Wir führen kontrollierte Token-für-Token-Trainingsexperimente durch und stellen fest, dass das Vortraining mit FineInstructions das standardmäßige Vortraining sowie andere vorgeschlagene synthetische Vortrainingsverfahren auf Standard-Benchmarks zur Messung der Qualität freiformulierter Antworten übertrifft. Unsere Ressourcen sind unter https://huggingface.co/fineinstructions verfügbar.
English
Due to limited supervised training data, large language models (LLMs) are typically pre-trained via a self-supervised "predict the next word" objective on a vast amount of unstructured text data. To make the resulting model useful to users, it is further trained on a far smaller amount of "instruction-tuning" data comprised of supervised training examples of instructions and responses. To overcome the limited amount of supervised data, we propose a procedure that can transform the knowledge in internet-scale pre-training documents into billions of synthetic instruction and answer training pairs. The resulting dataset, called FineInstructions, uses ~18M instruction templates created from real user-written queries and prompts. These instruction templates are matched to and instantiated with human-written source documents from unstructured pre-training corpora. With "supervised" synthetic training data generated at this scale, an LLM can be pre-trained from scratch solely with the instruction-tuning objective, which is far more in-distribution with the expected downstream usage of LLMs (responding to user prompts). We conduct controlled token-for-token training experiments and find pre-training on FineInstructions outperforms standard pre-training and other proposed synthetic pre-training techniques on standard benchmarks measuring free-form response quality. Our resources can be found at https://huggingface.co/fineinstructions .
PDF45January 31, 2026