Auto-addestramento con Feedback di Esecuzione: Migliorare le Capacità di Seguire Istruzioni nei Modelli Linguistici di Grande Dimensione

Abstract

Una delle capacità fondamentali dei grandi modelli linguistici (LLM) è quella di seguire istruzioni in linguaggio naturale. Tuttavia, il problema di costruire automaticamente dati di addestramento di alta qualità per migliorare le capacità complesse di seguire istruzioni degli LLM senza annotazione manuale rimane irrisolto. In questo articolo, introduciamo AutoIF, il primo metodo scalabile e affidabile per generare automaticamente dati di addestramento per il seguimento di istruzioni. AutoIF trasforma la validazione della qualità dei dati di seguimento di istruzioni in verifica del codice, richiedendo agli LLM di generare istruzioni, il codice corrispondente per verificare la correttezza delle risposte alle istruzioni e campioni di unit test per verificare la correttezza del codice. Successivamente, il campionamento di rifiuto basato sul feedback di esecuzione può generare dati per il Fine-Tuning Supervisionato (SFT) e l'Apprendimento per Rinforzo con Feedback Umano (RLHF). AutoIF ottiene miglioramenti significativi in tre algoritmi di addestramento, SFT, DPO Offline e DPO Online, quando applicato ai migliori LLM open-source, Qwen2 e LLaMA3, in contesti di auto-allineamento e distillazione da forte a debole. Il nostro codice è disponibile pubblicamente all'indirizzo https://github.com/QwenLM/AutoIF.

English

One core capability of large language models (LLMs) is to follow natural language instructions. However, the issue of automatically constructing high-quality training data to enhance the complex instruction-following abilities of LLMs without manual annotation remains unresolved. In this paper, we introduce AutoIF, the first scalable and reliable method for automatically generating instruction-following training data. AutoIF transforms the validation of instruction-following data quality into code verification, requiring LLMs to generate instructions, the corresponding code to check the correctness of the instruction responses, and unit test samples to verify the code's correctness. Then, execution feedback-based rejection sampling can generate data for Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF) training. AutoIF achieves significant improvements across three training algorithms, SFT, Offline DPO, and Online DPO, when applied to the top open-source LLMs, Qwen2 and LLaMA3, in self-alignment and strong-to-weak distillation settings. Our code is publicly available at https://github.com/QwenLM/AutoIF.

Auto-addestramento con Feedback di Esecuzione: Migliorare le Capacità di Seguire Istruzioni nei Modelli Linguistici di Grande Dimensione

Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models

Abstract

Support