Auto-apprentissage avec retour d'exécution : Amélioration des capacités de suivi d'instructions des grands modèles de langage
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models
June 19, 2024
Auteurs: Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou
cs.AI
Résumé
Une capacité fondamentale des grands modèles de langage (LLMs) est de suivre des instructions en langage naturel. Cependant, la question de la construction automatique de données d'entraînement de haute qualité pour améliorer les capacités complexes de suivi d'instructions des LLMs sans annotation manuelle reste non résolue. Dans cet article, nous présentons AutoIF, la première méthode évolutive et fiable pour générer automatiquement des données d'entraînement pour le suivi d'instructions. AutoIF transforme la validation de la qualité des données de suivi d'instructions en une vérification de code, exigeant que les LLMs génèrent des instructions, le code correspondant pour vérifier l'exactitude des réponses aux instructions, et des échantillons de tests unitaires pour vérifier la correction du code. Ensuite, un échantillonnage par rejet basé sur les retours d'exécution peut générer des données pour l'affinage supervisé (SFT) et l'apprentissage par renforcement à partir de retours humains (RLHF). AutoIF obtient des améliorations significatives à travers trois algorithmes d'entraînement, SFT, DPO hors ligne et DPO en ligne, lorsqu'il est appliqué aux meilleurs LLMs open-source, Qwen2 et LLaMA3, dans des contextes d'auto-alignement et de distillation fort-vers-faible. Notre code est disponible publiquement à l'adresse https://github.com/QwenLM/AutoIF.
English
One core capability of large language models (LLMs) is to follow natural
language instructions. However, the issue of automatically constructing
high-quality training data to enhance the complex instruction-following
abilities of LLMs without manual annotation remains unresolved. In this paper,
we introduce AutoIF, the first scalable and reliable method for automatically
generating instruction-following training data. AutoIF transforms the
validation of instruction-following data quality into code verification,
requiring LLMs to generate instructions, the corresponding code to check the
correctness of the instruction responses, and unit test samples to verify the
code's correctness. Then, execution feedback-based rejection sampling can
generate data for Supervised Fine-Tuning (SFT) and Reinforcement Learning from
Human Feedback (RLHF) training. AutoIF achieves significant improvements across
three training algorithms, SFT, Offline DPO, and Online DPO, when applied to
the top open-source LLMs, Qwen2 and LLaMA3, in self-alignment and
strong-to-weak distillation settings. Our code is publicly available at
https://github.com/QwenLM/AutoIF.Summary
AI-Generated Summary