ChatPaper.aiChatPaper

Autoaprendizaje con Retroalimentación de Ejecución: Mejorando las Capacidades de Seguimiento de Instrucciones en Modelos de Lenguaje a Gran Escala

Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models

June 19, 2024
Autores: Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou
cs.AI

Resumen

Una capacidad fundamental de los modelos de lenguaje de gran escala (LLMs) es seguir instrucciones en lenguaje natural. Sin embargo, el problema de construir automáticamente datos de entrenamiento de alta calidad para mejorar las habilidades complejas de seguimiento de instrucciones de los LLMs sin anotación manual sigue sin resolverse. En este artículo, presentamos AutoIF, el primer método escalable y confiable para generar automáticamente datos de entrenamiento de seguimiento de instrucciones. AutoIF transforma la validación de la calidad de los datos de seguimiento de instrucciones en verificación de código, requiriendo que los LLMs generen instrucciones, el código correspondiente para verificar la corrección de las respuestas a las instrucciones y muestras de pruebas unitarias para verificar la corrección del código. Luego, el muestreo por rechazo basado en retroalimentación de ejecución puede generar datos para el Ajuste Supervisado (SFT) y el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF). AutoIF logra mejoras significativas en tres algoritmos de entrenamiento, SFT, DPO Offline y DPO Online, cuando se aplica a los principales LLMs de código abierto, Qwen2 y LLaMA3, en configuraciones de autoalineación y destilación de fuerte a débil. Nuestro código está disponible públicamente en https://github.com/QwenLM/AutoIF.
English
One core capability of large language models (LLMs) is to follow natural language instructions. However, the issue of automatically constructing high-quality training data to enhance the complex instruction-following abilities of LLMs without manual annotation remains unresolved. In this paper, we introduce AutoIF, the first scalable and reliable method for automatically generating instruction-following training data. AutoIF transforms the validation of instruction-following data quality into code verification, requiring LLMs to generate instructions, the corresponding code to check the correctness of the instruction responses, and unit test samples to verify the code's correctness. Then, execution feedback-based rejection sampling can generate data for Supervised Fine-Tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF) training. AutoIF achieves significant improvements across three training algorithms, SFT, Offline DPO, and Online DPO, when applied to the top open-source LLMs, Qwen2 and LLaMA3, in self-alignment and strong-to-weak distillation settings. Our code is publicly available at https://github.com/QwenLM/AutoIF.

Summary

AI-Generated Summary

PDF162December 2, 2024