Selbstspiel mit Ausführungsfeedback: Verbesserung der Anweisungsfolgefähigkeiten großer Sprachmodelle

Zusammenfassung

Eine Kernfähigkeit großer Sprachmodelle (LLMs) besteht darin, natürlichen Sprachanweisungen zu folgen. Allerdings bleibt das Problem der automatischen Erstellung hochwertiger Trainingsdaten zur Verbesserung der komplexen Anweisungsfolgefähigkeiten von LLMs ohne manuelle Annotation ungelöst. In diesem Artikel stellen wir AutoIF vor, die erste skalierbare und zuverlässige Methode zur automatischen Generierung von Trainingsdaten zur Anweisungsfolge. AutoIF wandelt die Validierung der Qualität von Anweisungsfolgedaten in Codeüberprüfung um, wobei LLMs aufgefordert werden, Anweisungen zu generieren, den entsprechenden Code zur Überprüfung der Korrektheit der Anweisungsantworten und Unit-Testproben zur Überprüfung der Korrektheit des Codes zu erstellen. Dann kann die Ablehnungsmustererkennung basierend auf Ausführungsfeedback Daten für das Überwachtes Feintuning (SFT) und das Verstärkungslernen aus menschlichem Feedback (RLHF) generieren. AutoIF erzielt signifikante Verbesserungen bei drei Trainingsalgorithmen, SFT, Offline DPO und Online DPO, wenn sie auf die führenden Open-Source LLMs, Qwen2 und LLaMA3, in den Einstellungen zur Selbstausrichtung und von stark zu schwach erfolgender Destillation angewendet werden. Unser Code ist öffentlich unter https://github.com/QwenLM/AutoIF verfügbar.

English

One core capability of large language models (LLMs) is to follow natural language instructions. However, the issue of automatically constructing high-quality training data to enhance the complex instruction-following abilities of LLMs without manual annotation remains unresolved. In this paper, we introduce AutoIF, the first scalable and reliable method for automatically generating instruction-following training data. AutoIF transforms the validation of instruction-following data quality into code verification, requiring LLMs to generate instructions, the corresponding code to check the correctness of the instruction responses, and unit test samples to verify the code's correctness. Then, execution feedback-based rejection sampling can generate data for Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF) training. AutoIF achieves significant improvements across three training algorithms, SFT, Offline DPO, and Online DPO, when applied to the top open-source LLMs, Qwen2 and LLaMA3, in self-alignment and strong-to-weak distillation settings. Our code is publicly available at https://github.com/QwenLM/AutoIF.

Selbstspiel mit Ausführungsfeedback: Verbesserung der Anweisungsfolgefähigkeiten großer Sprachmodelle

Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models

Zusammenfassung

Support