Auf dem Weg zu robuster und effizienter kontinuierlicher Sprachlernfähigkeit
Towards Robust and Efficient Continual Language Learning
July 11, 2023
Autoren: Adam Fisch, Amal Rannen-Triki, Razvan Pascanu, Jörg Bornschein, Angeliki Lazaridou, Elena Gribovskaya, Marc'Aurelio Ranzato
cs.AI
Zusammenfassung
Da sich der Anwendungsbereich von Sprachmodellen ständig weiterentwickelt, stellt sich die Frage, wie wir Modelle schnell an neue Aufgaben anpassen können. Wir nähern uns dieser klassischen Frage aus der Perspektive des kontinuierlichen Lernens, bei dem es darum geht, Modelle, die auf früheren Aufgaben trainiert wurden, weiter auf neue Aufgaben zu feintunen, mit dem Ziel, relevantes Wissen zu „transferieren“. Diese Strategie birgt jedoch auch das Risiko, mehr Schaden als Nutzen anzurichten, d. h. negativen Transfer zu verursachen. In diesem Artikel erstellen wir einen neuen Benchmark von Aufgabenfolgen, die verschiedene mögliche Transferszenarien abdecken, wie z. B. eine Folge von Aufgaben mit hohem Potenzial für positiven Transfer, hohem Potenzial für negativen Transfer, ohne erwartete Wirkung oder einer Mischung aus allem. Ein idealer Lernalgorithmus sollte in der Lage sein, Informationen aus allen Aufgaben, die Potenzial für positiven Transfer haben, maximal zu nutzen, während er gleichzeitig die negativen Auswirkungen von ablenkenden Aufgaben, die ihn verwirren könnten, vermeidet. Wir schlagen dann einen einfachen, aber effektiven Lernalgorithmus vor, der viele unserer Anforderungen erfüllt, indem er eine selektive Strategie zur Initialisierung neuer Modelle aus Checkpoints früherer Aufgaben nutzt. Dennoch bleiben Einschränkungen bestehen, und wir hoffen, dass dieser Benchmark der Gemeinschaft helfen kann, solche Lernalgorithmen weiterzuentwickeln und zu analysieren.
English
As the application space of language models continues to evolve, a natural
question to ask is how we can quickly adapt models to new tasks. We approach
this classic question from a continual learning perspective, in which we aim to
continue fine-tuning models trained on past tasks on new tasks, with the goal
of "transferring" relevant knowledge. However, this strategy also runs the risk
of doing more harm than good, i.e., negative transfer. In this paper, we
construct a new benchmark of task sequences that target different possible
transfer scenarios one might face, such as a sequence of tasks with high
potential of positive transfer, high potential for negative transfer, no
expected effect, or a mixture of each. An ideal learner should be able to
maximally exploit information from all tasks that have any potential for
positive transfer, while also avoiding the negative effects of any distracting
tasks that may confuse it. We then propose a simple, yet effective, learner
that satisfies many of our desiderata simply by leveraging a selective strategy
for initializing new models from past task checkpoints. Still, limitations
remain, and we hope this benchmark can help the community to further build and
analyze such learners.