Selbstspiel mit Ausführungsfeedback: Verbesserung der Anweisungsfolgefähigkeiten großer Sprachmodelle
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models
June 19, 2024
Autoren: Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou
cs.AI
Zusammenfassung
Eine Kernfähigkeit großer Sprachmodelle (LLMs) besteht darin, natürlichen Sprachanweisungen zu folgen. Allerdings bleibt das Problem der automatischen Erstellung hochwertiger Trainingsdaten zur Verbesserung der komplexen Anweisungsfolgefähigkeiten von LLMs ohne manuelle Annotation ungelöst. In diesem Artikel stellen wir AutoIF vor, die erste skalierbare und zuverlässige Methode zur automatischen Generierung von Trainingsdaten zur Anweisungsfolge. AutoIF wandelt die Validierung der Qualität von Anweisungsfolgedaten in Codeüberprüfung um, wobei LLMs aufgefordert werden, Anweisungen zu generieren, den entsprechenden Code zur Überprüfung der Korrektheit der Anweisungsantworten und Unit-Testproben zur Überprüfung der Korrektheit des Codes zu erstellen. Dann kann die Ablehnungsmustererkennung basierend auf Ausführungsfeedback Daten für das Überwachtes Feintuning (SFT) und das Verstärkungslernen aus menschlichem Feedback (RLHF) generieren. AutoIF erzielt signifikante Verbesserungen bei drei Trainingsalgorithmen, SFT, Offline DPO und Online DPO, wenn sie auf die führenden Open-Source LLMs, Qwen2 und LLaMA3, in den Einstellungen zur Selbstausrichtung und von stark zu schwach erfolgender Destillation angewendet werden. Unser Code ist öffentlich unter https://github.com/QwenLM/AutoIF verfügbar.
English
One core capability of large language models (LLMs) is to follow natural
language instructions. However, the issue of automatically constructing
high-quality training data to enhance the complex instruction-following
abilities of LLMs without manual annotation remains unresolved. In this paper,
we introduce AutoIF, the first scalable and reliable method for automatically
generating instruction-following training data. AutoIF transforms the
validation of instruction-following data quality into code verification,
requiring LLMs to generate instructions, the corresponding code to check the
correctness of the instruction responses, and unit test samples to verify the
code's correctness. Then, execution feedback-based rejection sampling can
generate data for Supervised Fine-Tuning (SFT) and Reinforcement Learning from
Human Feedback (RLHF) training. AutoIF achieves significant improvements across
three training algorithms, SFT, Offline DPO, and Online DPO, when applied to
the top open-source LLMs, Qwen2 and LLaMA3, in self-alignment and
strong-to-weak distillation settings. Our code is publicly available at
https://github.com/QwenLM/AutoIF.Summary
AI-Generated Summary