Zelfspel met uitvoeringsfeedback: Het verbeteren van instructievolgingscapaciteiten van grote taalmodellen
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models
June 19, 2024
Auteurs: Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou
cs.AI
Samenvatting
Een kerncapaciteit van grote taalmodellen (LLMs) is het volgen van natuurlijke taal instructies. Het probleem van het automatisch construeren van hoogwaardige trainingsdata om de complexe instructievolgcapaciteiten van LLMs te verbeteren zonder handmatige annotatie blijft echter onopgelost. In dit artikel introduceren we AutoIF, de eerste schaalbare en betrouwbare methode voor het automatisch genereren van instructievolg-trainingsdata. AutoIF transformeert de validatie van de kwaliteit van instructievolgdata in codeverificatie, waarbij LLMs instructies moeten genereren, de bijbehorende code om de correctheid van de instructieresponsen te controleren, en unit testvoorbeelden om de correctheid van de code te verifiëren. Vervolgens kan uitvoeringsfeedback-gebaseerde afkeuringssteekproef data genereren voor Supervised Fine-Tuning (SFT) en Reinforcement Learning from Human Feedback (RLHF) training. AutoIF behaalt significante verbeteringen over drie trainingsalgoritmen, SFT, Offline DPO en Online DPO, wanneer toegepast op de top open-source LLMs, Qwen2 en LLaMA3, in zelfalignatie en strong-to-weak distillatie-instellingen. Onze code is publiekelijk beschikbaar op https://github.com/QwenLM/AutoIF.
English
One core capability of large language models (LLMs) is to follow natural
language instructions. However, the issue of automatically constructing
high-quality training data to enhance the complex instruction-following
abilities of LLMs without manual annotation remains unresolved. In this paper,
we introduce AutoIF, the first scalable and reliable method for automatically
generating instruction-following training data. AutoIF transforms the
validation of instruction-following data quality into code verification,
requiring LLMs to generate instructions, the corresponding code to check the
correctness of the instruction responses, and unit test samples to verify the
code's correctness. Then, execution feedback-based rejection sampling can
generate data for Supervised Fine-Tuning (SFT) and Reinforcement Learning from
Human Feedback (RLHF) training. AutoIF achieves significant improvements across
three training algorithms, SFT, Offline DPO, and Online DPO, when applied to
the top open-source LLMs, Qwen2 and LLaMA3, in self-alignment and
strong-to-weak distillation settings. Our code is publicly available at
https://github.com/QwenLM/AutoIF.