Instrucciones Finas: Escalar Instrucciones Sintéticas a la Escala de Pre-entrenamiento
FineInstructions: Scaling Synthetic Instructions to Pre-Training Scale
January 29, 2026
Autores: Ajay Patel, Colin Raffel, Chris Callison-Burch
cs.AI
Resumen
Debido a la limitación de datos de entrenamiento supervisado, los grandes modelos de lenguaje (LLMs) suelen ser preentrenados mediante un objetivo de auto-supervisión de "predecir la siguiente palabra" sobre una vasta cantidad de datos de texto no estructurado. Para que el modelo resultante sea útil para los usuarios, se lo entrena adicionalmente con una cantidad mucho menor de datos de "ajuste por instrucciones", compuestos por ejemplos de entrenamiento supervisado de instrucciones y respuestas. Para superar la limitada cantidad de datos supervisados, proponemos un procedimiento que puede transformar el conocimiento de los documentos de preentrenamiento a escala de internet en miles de millones de pares de entrenamiento sintéticos de instrucciones y respuestas. El conjunto de datos resultante, llamado FineInstructions, utiliza aproximadamente 18 millones de plantillas de instrucciones creadas a partir de consultas y *prompts* escritos por usuarios reales. Estas plantillas de instrucciones se emparejan y se instancian con documentos fuente escritos por humanos, obtenidos de corpus de preentrenamiento no estructurados. Con datos de entrenamiento sintéticos "supervisados" generados a esta escala, un LLM puede ser preentrenado desde cero únicamente con el objetivo de ajuste por instrucciones, el cual está mucho más en-distribución con el uso final esperado de los LLMs (responder a *prompts* de usuarios). Realizamos experimentos controlados de entrenamiento token-por-token y encontramos que el preentrenamiento con FineInstructions supera al preentrenamiento estándar y a otras técnicas de preentrenamiento sintético propuestas en evaluaciones estándar que miden la calidad de la respuesta de forma libre. Nuestros recursos se pueden encontrar en https://huggingface.co/fineinstructions.
English
Due to limited supervised training data, large language models (LLMs) are typically pre-trained via a self-supervised "predict the next word" objective on a vast amount of unstructured text data. To make the resulting model useful to users, it is further trained on a far smaller amount of "instruction-tuning" data comprised of supervised training examples of instructions and responses. To overcome the limited amount of supervised data, we propose a procedure that can transform the knowledge in internet-scale pre-training documents into billions of synthetic instruction and answer training pairs. The resulting dataset, called FineInstructions, uses ~18M instruction templates created from real user-written queries and prompts. These instruction templates are matched to and instantiated with human-written source documents from unstructured pre-training corpora. With "supervised" synthetic training data generated at this scale, an LLM can be pre-trained from scratch solely with the instruction-tuning objective, which is far more in-distribution with the expected downstream usage of LLMs (responding to user prompts). We conduct controlled token-for-token training experiments and find pre-training on FineInstructions outperforms standard pre-training and other proposed synthetic pre-training techniques on standard benchmarks measuring free-form response quality. Our resources can be found at https://huggingface.co/fineinstructions .