Autoaprendizaje con Retroalimentación de Ejecución: Mejorando las Capacidades de Seguimiento de Instrucciones en Modelos de Lenguaje a Gran Escala
Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models
June 19, 2024
Autores: Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou
cs.AI
Resumen
Una capacidad fundamental de los modelos de lenguaje de gran escala (LLMs) es seguir instrucciones en lenguaje natural. Sin embargo, el problema de construir automáticamente datos de entrenamiento de alta calidad para mejorar las habilidades complejas de seguimiento de instrucciones de los LLMs sin anotación manual sigue sin resolverse. En este artículo, presentamos AutoIF, el primer método escalable y confiable para generar automáticamente datos de entrenamiento de seguimiento de instrucciones. AutoIF transforma la validación de la calidad de los datos de seguimiento de instrucciones en verificación de código, requiriendo que los LLMs generen instrucciones, el código correspondiente para verificar la corrección de las respuestas a las instrucciones y muestras de pruebas unitarias para verificar la corrección del código. Luego, el muestreo por rechazo basado en retroalimentación de ejecución puede generar datos para el Ajuste Supervisado (SFT) y el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF). AutoIF logra mejoras significativas en tres algoritmos de entrenamiento, SFT, DPO Offline y DPO Online, cuando se aplica a los principales LLMs de código abierto, Qwen2 y LLaMA3, en configuraciones de autoalineación y destilación de fuerte a débil. Nuestro código está disponible públicamente en https://github.com/QwenLM/AutoIF.
English
One core capability of large language models (LLMs) is to follow natural
language instructions. However, the issue of automatically constructing
high-quality training data to enhance the complex instruction-following
abilities of LLMs without manual annotation remains unresolved. In this paper,
we introduce AutoIF, the first scalable and reliable method for automatically
generating instruction-following training data. AutoIF transforms the
validation of instruction-following data quality into code verification,
requiring LLMs to generate instructions, the corresponding code to check the
correctness of the instruction responses, and unit test samples to verify the
code's correctness. Then, execution feedback-based rejection sampling can
generate data for Supervised Fine-Tuning (SFT) and Reinforcement Learning from
Human Feedback (RLHF) training. AutoIF achieves significant improvements across
three training algorithms, SFT, Offline DPO, and Online DPO, when applied to
the top open-source LLMs, Qwen2 and LLaMA3, in self-alignment and
strong-to-weak distillation settings. Our code is publicly available at
https://github.com/QwenLM/AutoIF.Summary
AI-Generated Summary