Optimisation Directe de Nash : Enseigner aux Modèles de Langage à s'Améliorer par eux-mêmes avec des Préférences GénéralesDirect Nash Optimization: Teaching Language Models to Self-Improve with
General Preferences
Cet article étudie le post-entraînement des grands modèles de langage (LLMs) en utilisant des retours de préférence provenant d'un oracle puissant pour aider un modèle à s'améliorer de manière itérative. L'approche typique pour le post-entraînement des LLMs implique l'apprentissage par renforcement à partir de retours humains (RLHF), qui sépare traditionnellement l'apprentissage de la récompense et l'optimisation ultérieure de la politique. Cependant, une telle approche de maximisation de la récompense est limitée par la nature des récompenses "ponctuelles" (comme le modèle de Bradley-Terry), qui ne parviennent pas à exprimer des relations de préférence complexes, intransitives ou cycliques. Bien que les avancées en RLHF montrent que l'apprentissage de la récompense et l'optimisation de la politique peuvent être fusionnés en un objectif contrastif unique pour plus de stabilité, elles restent néanmoins ancrées dans le cadre de la maximisation de la récompense. Récemment, une nouvelle vague de recherche contourne les présomptions de maximisation de la récompense en faveur d'une optimisation directe sur des préférences "par paires" ou générales. Dans cet article, nous introduisons l'Optimisation Directe de Nash (DNO), un algorithme prouvable et scalable qui combine la simplicité et la stabilité de l'apprentissage contrastif avec la généralité théorique de l'optimisation des préférences générales. Comme DNO est un algorithme par lots sur politique utilisant un objectif basé sur la régression, son implémentation est simple et efficace. De plus, DNO bénéficie d'une amélioration monotone au fil des itérations, ce qui l'aide à s'améliorer même par rapport à un enseignant puissant (comme GPT-4). Dans nos expériences, un modèle Orca-2.5 de 7 milliards de paramètres aligné par DNO atteint un taux de victoire de pointe de 33 % contre GPT-4-Turbo sur AlpacaEval 2.0 (même après contrôle de la longueur des réponses), un gain absolu de 26 % (de 7 % à 33 %) par rapport au modèle initial. Il surpasse des modèles avec bien plus de paramètres, notamment Mistral Large, Self-Rewarding LM (70 milliards de paramètres) et les versions antérieures de GPT-4.