ChatPaper.aiChatPaper

Enseigner aux modèles de langage à s'améliorer par eux-mêmes grâce à des démonstrations interactives

Teaching Language Models to Self-Improve through Interactive Demonstrations

October 20, 2023
Auteurs: Xiao Yu, Baolin Peng, Michel Galley, Jianfeng Gao, Zhou Yu
cs.AI

Résumé

La capacité d'auto-amélioration des grands modèles de langage (LLMs), rendue possible en les incitant à analyser et réviser leurs propres sorties, a suscité un intérêt considérable dans les recherches récentes. Cependant, il a été démontré que cette capacité est absente et difficile à acquérir pour les modèles plus petits, ce qui accentue l'écart de performance entre les LLMs de pointe et les modèles plus économiques et rapides. Pour réduire cet écart, nous introduisons TriPosT, un algorithme d'entraînement qui confère aux modèles plus petits cette capacité d'auto-amélioration, et nous montrons que notre approche peut améliorer les performances d'un modèle LLaMA-7b sur des tâches de mathématiques et de raisonnement jusqu'à 7,13 %. Contrairement aux travaux antérieurs, nous y parvenons en faisant interagir le modèle plus petit avec des LLMs pour collecter des retours et des améliorations sur ses propres générations. Nous rejouons ensuite cette expérience pour entraîner le petit modèle. Nos expériences sur quatre ensembles de données de mathématiques et de raisonnement montrent que l'expérience interactive d'apprentissage et de correction de ses propres erreurs est cruciale pour que les petits modèles améliorent leurs performances.
English
The self-improving ability of large language models (LLMs), enabled by prompting them to analyze and revise their own outputs, has garnered significant interest in recent research. However, this ability has been shown to be absent and difficult to learn for smaller models, thus widening the performance gap between state-of-the-art LLMs and more cost-effective and faster ones. To reduce this gap, we introduce TriPosT, a training algorithm that endows smaller models with such self-improvement ability, and show that our approach can improve a LLaMA-7b's performance on math and reasoning tasks by up to 7.13%. In contrast to prior work, we achieve this by using the smaller model to interact with LLMs to collect feedback and improvements on its own generations. We then replay this experience to train the small model. Our experiments on four math and reasoning datasets show that the interactive experience of learning from and correcting its own mistakes is crucial for small models to improve their performance.
PDF121December 15, 2024