Autoaprendizagem com Feedback de Execução: Aprimorando as Capacidades de Seguimento de Instruções em Modelos de Linguagem de Grande Escala
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models
June 19, 2024
Autores: Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou
cs.AI
Resumo
Uma capacidade central dos grandes modelos de linguagem (LLMs) é seguir instruções em linguagem natural. No entanto, o problema de construir automaticamente dados de treinamento de alta qualidade para aprimorar as habilidades complexas de seguir instruções dos LLMs, sem anotação manual, permanece sem solução. Neste artigo, apresentamos o AutoIF, o primeiro método escalável e confiável para gerar automaticamente dados de treinamento de seguimento de instruções. O AutoIF transforma a validação da qualidade dos dados de seguimento de instruções em verificação de código, exigindo que os LLMs gerem instruções, o código correspondente para verificar a correção das respostas às instruções e amostras de testes unitários para verificar a correção do código. Em seguida, a amostragem por rejeição baseada em feedback de execução pode gerar dados para Ajuste Fino Supervisionado (SFT) e Aprendizado por Reforço com Feedback Humano (RLHF). O AutoIF alcança melhorias significativas em três algoritmos de treinamento, SFT, DPO Offline e DPO Online, quando aplicado aos principais LLMs de código aberto, Qwen2 e LLaMA3, em configurações de autoalinhamento e destilação de forte para fraco. Nosso código está disponível publicamente em https://github.com/QwenLM/AutoIF.
English
One core capability of large language models (LLMs) is to follow natural
language instructions. However, the issue of automatically constructing
high-quality training data to enhance the complex instruction-following
abilities of LLMs without manual annotation remains unresolved. In this paper,
we introduce AutoIF, the first scalable and reliable method for automatically
generating instruction-following training data. AutoIF transforms the
validation of instruction-following data quality into code verification,
requiring LLMs to generate instructions, the corresponding code to check the
correctness of the instruction responses, and unit test samples to verify the
code's correctness. Then, execution feedback-based rejection sampling can
generate data for Supervised Fine-Tuning (SFT) and Reinforcement Learning from
Human Feedback (RLHF) training. AutoIF achieves significant improvements across
three training algorithms, SFT, Offline DPO, and Online DPO, when applied to
the top open-source LLMs, Qwen2 and LLaMA3, in self-alignment and
strong-to-weak distillation settings. Our code is publicly available at
https://github.com/QwenLM/AutoIF.