Potenciación propia de modelos de lenguaje grandes con datos de preferencia sintéticos
Self-Boosting Large Language Models with Synthetic Preference Data
October 9, 2024
Autores: Qingxiu Dong, Li Dong, Xingxing Zhang, Zhifang Sui, Furu Wei
cs.AI
Resumen
A través de la alineación con las preferencias humanas, los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han avanzado significativamente en la generación de respuestas honestas, inofensivas y útiles. Sin embargo, recopilar datos de preferencia de alta calidad es un proceso intensivo en recursos y exigente en creatividad, especialmente para la mejora continua de los LLMs. Presentamos SynPO, un paradigma de autoimpulso que aprovecha datos de preferencia sintéticos para la alineación del modelo. SynPO emplea un mecanismo iterativo en el cual un generador de auto-prompt crea diversos estímulos, y un mejorador de respuestas perfecciona progresivamente las respuestas del modelo. Este enfoque entrena a los LLMs para aprender autónomamente las recompensas generativas para sus propias salidas y elimina la necesidad de una anotación a gran escala de estímulos y preferencias humanas. Después de cuatro iteraciones de SynPO, Llama3-8B y Mistral-7B muestran mejoras significativas en habilidades de seguimiento de instrucciones, logrando mejoras de más del 22.1% en las tasas de éxito en AlpacaEval 2.0 y ArenaHard. Simultáneamente, SynPO mejora el rendimiento general de los LLMs en diversas tareas, validado por un aumento promedio de puntuación de 3.2 a 5.0 en el reconocido tablero de líderes de Open LLM.
English
Through alignment with human preferences, Large Language Models (LLMs) have
advanced significantly in generating honest, harmless, and helpful responses.
However, collecting high-quality preference data is a resource-intensive and
creativity-demanding process, especially for the continual improvement of LLMs.
We introduce SynPO, a self-boosting paradigm that leverages synthetic
preference data for model alignment. SynPO employs an iterative mechanism
wherein a self-prompt generator creates diverse prompts, and a response
improver refines model responses progressively. This approach trains LLMs to
autonomously learn the generative rewards for their own outputs and eliminates
the need for large-scale annotation of prompts and human preferences. After
four SynPO iterations, Llama3-8B and Mistral-7B show significant enhancements
in instruction-following abilities, achieving over 22.1% win rate improvements
on AlpacaEval 2.0 and ArenaHard. Simultaneously, SynPO improves the general
performance of LLMs on various tasks, validated by a 3.2 to 5.0 average score
increase on the well-recognized Open LLM leaderboard.Summary
AI-Generated Summary