Auto-addestramento con Feedback di Esecuzione: Migliorare le Capacità di Seguire Istruzioni nei Modelli Linguistici di Grande Dimensione
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models
June 19, 2024
Autori: Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou
cs.AI
Abstract
Una delle capacità fondamentali dei grandi modelli linguistici (LLM) è quella di seguire istruzioni in linguaggio naturale. Tuttavia, il problema di costruire automaticamente dati di addestramento di alta qualità per migliorare le capacità complesse di seguire istruzioni degli LLM senza annotazione manuale rimane irrisolto. In questo articolo, introduciamo AutoIF, il primo metodo scalabile e affidabile per generare automaticamente dati di addestramento per il seguimento di istruzioni. AutoIF trasforma la validazione della qualità dei dati di seguimento di istruzioni in verifica del codice, richiedendo agli LLM di generare istruzioni, il codice corrispondente per verificare la correttezza delle risposte alle istruzioni e campioni di unit test per verificare la correttezza del codice. Successivamente, il campionamento di rifiuto basato sul feedback di esecuzione può generare dati per il Fine-Tuning Supervisionato (SFT) e l'Apprendimento per Rinforzo con Feedback Umano (RLHF). AutoIF ottiene miglioramenti significativi in tre algoritmi di addestramento, SFT, DPO Offline e DPO Online, quando applicato ai migliori LLM open-source, Qwen2 e LLaMA3, in contesti di auto-allineamento e distillazione da forte a debole. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/QwenLM/AutoIF.
English
One core capability of large language models (LLMs) is to follow natural
language instructions. However, the issue of automatically constructing
high-quality training data to enhance the complex instruction-following
abilities of LLMs without manual annotation remains unresolved. In this paper,
we introduce AutoIF, the first scalable and reliable method for automatically
generating instruction-following training data. AutoIF transforms the
validation of instruction-following data quality into code verification,
requiring LLMs to generate instructions, the corresponding code to check the
correctness of the instruction responses, and unit test samples to verify the
code's correctness. Then, execution feedback-based rejection sampling can
generate data for Supervised Fine-Tuning (SFT) and Reinforcement Learning from
Human Feedback (RLHF) training. AutoIF achieves significant improvements across
three training algorithms, SFT, Offline DPO, and Online DPO, when applied to
the top open-source LLMs, Qwen2 and LLaMA3, in self-alignment and
strong-to-weak distillation settings. Our code is publicly available at
https://github.com/QwenLM/AutoIF.