Enseigner aux modèles de langage à s'améliorer par eux-mêmes grâce à des démonstrations interactives
Teaching Language Models to Self-Improve through Interactive Demonstrations
October 20, 2023
Auteurs: Xiao Yu, Baolin Peng, Michel Galley, Jianfeng Gao, Zhou Yu
cs.AI
Résumé
La capacité d'auto-amélioration des grands modèles de langage (LLMs), rendue possible en les incitant à analyser et réviser leurs propres sorties, a suscité un intérêt considérable dans les recherches récentes. Cependant, il a été démontré que cette capacité est absente et difficile à acquérir pour les modèles plus petits, ce qui accentue l'écart de performance entre les LLMs de pointe et les modèles plus économiques et rapides. Pour réduire cet écart, nous introduisons TriPosT, un algorithme d'entraînement qui confère aux modèles plus petits cette capacité d'auto-amélioration, et nous montrons que notre approche peut améliorer les performances d'un modèle LLaMA-7b sur des tâches de mathématiques et de raisonnement jusqu'à 7,13 %. Contrairement aux travaux antérieurs, nous y parvenons en faisant interagir le modèle plus petit avec des LLMs pour collecter des retours et des améliorations sur ses propres générations. Nous rejouons ensuite cette expérience pour entraîner le petit modèle. Nos expériences sur quatre ensembles de données de mathématiques et de raisonnement montrent que l'expérience interactive d'apprentissage et de correction de ses propres erreurs est cruciale pour que les petits modèles améliorent leurs performances.
English
The self-improving ability of large language models (LLMs), enabled by
prompting them to analyze and revise their own outputs, has garnered
significant interest in recent research. However, this ability has been shown
to be absent and difficult to learn for smaller models, thus widening the
performance gap between state-of-the-art LLMs and more cost-effective and
faster ones. To reduce this gap, we introduce TriPosT, a training algorithm
that endows smaller models with such self-improvement ability, and show that
our approach can improve a LLaMA-7b's performance on math and reasoning tasks
by up to 7.13%. In contrast to prior work, we achieve this by using the smaller
model to interact with LLMs to collect feedback and improvements on its own
generations. We then replay this experience to train the small model. Our
experiments on four math and reasoning datasets show that the interactive
experience of learning from and correcting its own mistakes is crucial for
small models to improve their performance.