Istruzioni di Precisione: Scalare le Istruzioni Sintetiche alla Scala del Pre-Addestramento

Abstract

A causa della limitata disponibilità di dati di addestramento supervisionati, i grandi modelli linguistici (LLM) vengono tipicamente pre-addestrati tramite un obiettivo auto-supervisionato di "previsione della parola successiva" su una vasta quantità di dati testuali non strutturati. Per rendere il modello risultante utile agli utenti, viene successivamente addestrato su una quantità molto minore di dati di "instruction-tuning", composti da esempi di addestramento supervisionati di istruzioni e risposte. Per superare la scarsità di dati supervisionati, proponiamo una procedura in grado di trasformare la conoscenza contenuta nei documenti di pre-addestramento su scala internet in miliardi di coppie sintetiche di addestramento composte da istruzioni e risposte. Il dataset risultante, chiamato FineInstructions, utilizza circa 18 milioni di template di istruzioni creati a partire da query e prompt scritti da utenti reali. Questi template di istruzioni vengono abbinati e istanziati con documenti sorgente scritti da esseri umani, provenienti da corpora di pre-addestramento non strutturati. Con dati di addestramento sintetici "supervisionati" generati su questa scala, un LLM può essere pre-addestrato da zero utilizzando esclusivamente l'obiettivo dell'instruction-tuning, che risulta molto più in-distribuzione con l'utilizzo downstream previsto per gli LLM (rispondere ai prompt degli utenti). Abbiamo condotto esperimenti di addestramento controllato token-per-token e riscontriamo che il pre-addestramento su FineInstructions supera il pre-addestramento standard e altre tecniche di pre-addestramento sintetico proposte, su benchmark standard che misurano la qualità delle risposte in forma libera. Le nostre risorse sono disponibili all'indirizzo: https://huggingface.co/fineinstructions.

English

Due to limited supervised training data, large language models (LLMs) are typically pre-trained via a self-supervised "predict the next word" objective on a vast amount of unstructured text data. To make the resulting model useful to users, it is further trained on a far smaller amount of "instruction-tuning" data comprised of supervised training examples of instructions and responses. To overcome the limited amount of supervised data, we propose a procedure that can transform the knowledge in internet-scale pre-training documents into billions of synthetic instruction and answer training pairs. The resulting dataset, called FineInstructions, uses ~18M instruction templates created from real user-written queries and prompts. These instruction templates are matched to and instantiated with human-written source documents from unstructured pre-training corpora. With "supervised" synthetic training data generated at this scale, an LLM can be pre-trained from scratch solely with the instruction-tuning objective, which is far more in-distribution with the expected downstream usage of LLMs (responding to user prompts). We conduct controlled token-for-token training experiments and find pre-training on FineInstructions outperforms standard pre-training and other proposed synthetic pre-training techniques on standard benchmarks measuring free-form response quality. Our resources can be found at https://huggingface.co/fineinstructions .

Istruzioni di Precisione: Scalare le Istruzioni Sintetiche alla Scala del Pre-Addestramento

FineInstructions: Scaling Synthetic Instructions to Pre-Training Scale

Abstract

Support