ChatPaper.aiChatPaper

Um Emulador para Ajuste Fino de Modelos de Linguagem de Grande Escala utilizando Modelos de Linguagem de Pequena Escala

An Emulator for Fine-Tuning Large Language Models using Small Language Models

October 19, 2023
Autores: Eric Mitchell, Rafael Rafailov, Archit Sharma, Chelsea Finn, Christopher D. Manning
cs.AI

Resumo

Modelos de linguagem (LMs) amplamente utilizados são tipicamente construídos por meio da ampliação de um pipeline de treinamento em duas etapas: uma etapa de pré-treinamento que utiliza um conjunto de dados de texto muito grande e diversificado, e uma etapa de ajuste fino (às vezes chamada de "alinhamento") que utiliza exemplos específicos ou outras especificações de comportamentos desejados. Embora tenha sido hipotetizado que o conhecimento e as habilidades vêm do pré-treinamento, e que o ajuste fino principalmente filtra esse conhecimento e conjunto de habilidades, essa intuição não foi extensivamente testada. Para auxiliar nisso, introduzimos uma técnica inovadora para desacoplar o conhecimento e as habilidades adquiridos nessas duas etapas, permitindo uma resposta direta à pergunta: "O que aconteceria se combinássemos o conhecimento aprendido por um modelo grande durante o pré-treinamento com o conhecimento aprendido por um modelo pequeno durante o ajuste fino (ou vice-versa)?" Utilizando um framework baseado em RL derivado de desenvolvimentos recentes em aprendizado a partir de preferências humanas, introduzimos o ajuste fino emulado (EFT), um método prático e fundamentado para amostrar de uma distribuição que aproxima (ou "emula") o resultado do pré-treinamento e do ajuste fino em diferentes escalas. Nossos experimentos com EFT mostram que aumentar a escala do ajuste fino tende a melhorar a utilidade, enquanto aumentar a escala do pré-treinamento tende a melhorar a factualidade. Além de desacoplar a escala, mostramos que o EFT permite o ajuste em tempo de teste de traços comportamentais concorrentes, como utilidade e inofensividade, sem treinamento adicional. Por fim, um caso especial de ajuste fino emulado, que chamamos de up-scaling de LM, evita o ajuste fino intensivo em recursos de modelos grandes pré-treinados, combinando-os com modelos pequenos ajustados, essencialmente emulando o resultado do ajuste fino do modelo grande pré-treinado. O up-scaling melhora consistentemente a utilidade e a factualidade de modelos que seguem instruções nas famílias Llama, Llama-2 e Falcon, sem hiperparâmetros ou treinamento adicionais.
English
Widely used language models (LMs) are typically built by scaling up a two-stage training pipeline: a pre-training stage that uses a very large, diverse dataset of text and a fine-tuning (sometimes, 'alignment') stage that uses targeted examples or other specifications of desired behaviors. While it has been hypothesized that knowledge and skills come from pre-training, and fine-tuning mostly filters this knowledge and skillset, this intuition has not been extensively tested. To aid in doing so, we introduce a novel technique for decoupling the knowledge and skills gained in these two stages, enabling a direct answer to the question, "What would happen if we combined the knowledge learned by a large model during pre-training with the knowledge learned by a small model during fine-tuning (or vice versa)?" Using an RL-based framework derived from recent developments in learning from human preferences, we introduce emulated fine-tuning (EFT), a principled and practical method for sampling from a distribution that approximates (or 'emulates') the result of pre-training and fine-tuning at different scales. Our experiments with EFT show that scaling up fine-tuning tends to improve helpfulness, while scaling up pre-training tends to improve factuality. Beyond decoupling scale, we show that EFT enables test-time adjustment of competing behavioral traits like helpfulness and harmlessness without additional training. Finally, a special case of emulated fine-tuning, which we call LM up-scaling, avoids resource-intensive fine-tuning of large pre-trained models by ensembling them with small fine-tuned models, essentially emulating the result of fine-tuning the large pre-trained model. Up-scaling consistently improves helpfulness and factuality of instruction-following models in the Llama, Llama-2, and Falcon families, without additional hyperparameters or training.
PDF131February 7, 2026