Lehren von Sprachmodellen, sich selbst durch interaktive Demonstrationen zu verbessern
Teaching Language Models to Self-Improve through Interactive Demonstrations
October 20, 2023
Autoren: Xiao Yu, Baolin Peng, Michel Galley, Jianfeng Gao, Zhou Yu
cs.AI
Zusammenfassung
Die Fähigkeit zur Selbstverbesserung großer Sprachmodelle (LLMs), die durch die Aufforderung, ihre eigenen Ausgaben zu analysieren und zu überarbeiten, ermöglicht wird, hat in der jüngeren Forschung erhebliches Interesse geweckt. Es hat sich jedoch gezeigt, dass diese Fähigkeit bei kleineren Modellen fehlt und schwer zu erlernen ist, wodurch die Leistungslücke zwischen modernsten LLMs und kostengünstigeren sowie schnelleren Modellen vergrößert wird. Um diese Lücke zu verringern, stellen wir TriPosT vor, einen Trainingsalgorithmus, der kleineren Modellen eine solche Selbstverbesserungsfähigkeit verleiht, und zeigen, dass unser Ansatz die Leistung eines LLaMA-7b bei mathematischen und logischen Aufgaben um bis zu 7,13 % verbessern kann. Im Gegensatz zu früheren Arbeiten erreichen wir dies, indem wir das kleinere Modell dazu verwenden, mit LLMs zu interagieren, um Feedback und Verbesserungen für seine eigenen Generierungen zu sammeln. Diese Erfahrung spielen wir dann zurück, um das kleine Modell zu trainieren. Unsere Experimente mit vier mathematischen und logischen Datensätzen zeigen, dass die interaktive Erfahrung, aus eigenen Fehlern zu lernen und diese zu korrigieren, entscheidend ist, damit kleine Modelle ihre Leistung verbessern können.
English
The self-improving ability of large language models (LLMs), enabled by
prompting them to analyze and revise their own outputs, has garnered
significant interest in recent research. However, this ability has been shown
to be absent and difficult to learn for smaller models, thus widening the
performance gap between state-of-the-art LLMs and more cost-effective and
faster ones. To reduce this gap, we introduce TriPosT, a training algorithm
that endows smaller models with such self-improvement ability, and show that
our approach can improve a LLaMA-7b's performance on math and reasoning tasks
by up to 7.13%. In contrast to prior work, we achieve this by using the smaller
model to interact with LLMs to collect feedback and improvements on its own
generations. We then replay this experience to train the small model. Our
experiments on four math and reasoning datasets show that the interactive
experience of learning from and correcting its own mistakes is crucial for
small models to improve their performance.