ChatPaper.aiChatPaper

Potenciación propia de modelos de lenguaje grandes con datos de preferencia sintéticos

Self-Boosting Large Language Models with Synthetic Preference Data

October 9, 2024
Autores: Qingxiu Dong, Li Dong, Xingxing Zhang, Zhifang Sui, Furu Wei
cs.AI

Resumen

A través de la alineación con las preferencias humanas, los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han avanzado significativamente en la generación de respuestas honestas, inofensivas y útiles. Sin embargo, recopilar datos de preferencia de alta calidad es un proceso intensivo en recursos y exigente en creatividad, especialmente para la mejora continua de los LLMs. Presentamos SynPO, un paradigma de autoimpulso que aprovecha datos de preferencia sintéticos para la alineación del modelo. SynPO emplea un mecanismo iterativo en el cual un generador de auto-prompt crea diversos estímulos, y un mejorador de respuestas perfecciona progresivamente las respuestas del modelo. Este enfoque entrena a los LLMs para aprender autónomamente las recompensas generativas para sus propias salidas y elimina la necesidad de una anotación a gran escala de estímulos y preferencias humanas. Después de cuatro iteraciones de SynPO, Llama3-8B y Mistral-7B muestran mejoras significativas en habilidades de seguimiento de instrucciones, logrando mejoras de más del 22.1% en las tasas de éxito en AlpacaEval 2.0 y ArenaHard. Simultáneamente, SynPO mejora el rendimiento general de los LLMs en diversas tareas, validado por un aumento promedio de puntuación de 3.2 a 5.0 en el reconocido tablero de líderes de Open LLM.
English
Through alignment with human preferences, Large Language Models (LLMs) have advanced significantly in generating honest, harmless, and helpful responses. However, collecting high-quality preference data is a resource-intensive and creativity-demanding process, especially for the continual improvement of LLMs. We introduce SynPO, a self-boosting paradigm that leverages synthetic preference data for model alignment. SynPO employs an iterative mechanism wherein a self-prompt generator creates diverse prompts, and a response improver refines model responses progressively. This approach trains LLMs to autonomously learn the generative rewards for their own outputs and eliminates the need for large-scale annotation of prompts and human preferences. After four SynPO iterations, Llama3-8B and Mistral-7B show significant enhancements in instruction-following abilities, achieving over 22.1% win rate improvements on AlpacaEval 2.0 and ArenaHard. Simultaneously, SynPO improves the general performance of LLMs on various tasks, validated by a 3.2 to 5.0 average score increase on the well-recognized Open LLM leaderboard.

Summary

AI-Generated Summary

PDF171November 16, 2024