Hacia un Aprendizaje Continuo de Lenguaje Robusto y Eficiente
Towards Robust and Efficient Continual Language Learning
July 11, 2023
Autores: Adam Fisch, Amal Rannen-Triki, Razvan Pascanu, Jörg Bornschein, Angeliki Lazaridou, Elena Gribovskaya, Marc'Aurelio Ranzato
cs.AI
Resumen
A medida que el espacio de aplicación de los modelos de lenguaje continúa evolucionando, surge una pregunta natural: ¿cómo podemos adaptar rápidamente los modelos a nuevas tareas? Abordamos esta clásica cuestión desde una perspectiva de aprendizaje continuo, en la que buscamos seguir ajustando modelos entrenados en tareas anteriores para nuevas tareas, con el objetivo de "transferir" conocimiento relevante. Sin embargo, esta estrategia también conlleva el riesgo de hacer más daño que bien, es decir, de producir una transferencia negativa. En este artículo, construimos un nuevo benchmark de secuencias de tareas que abordan diferentes escenarios de transferencia que uno podría enfrentar, como una secuencia de tareas con un alto potencial de transferencia positiva, un alto potencial de transferencia negativa, ningún efecto esperado o una mezcla de cada uno. Un aprendiz ideal debería ser capaz de explotar al máximo la información de todas las tareas que tengan algún potencial de transferencia positiva, al mismo tiempo que evita los efectos negativos de cualquier tarea distractora que pueda confundirlo. Luego, proponemos un aprendiz simple pero efectivo que satisface muchos de nuestros deseos simplemente aprovechando una estrategia selectiva para inicializar nuevos modelos a partir de puntos de control de tareas anteriores. Aún así, persisten limitaciones, y esperamos que este benchmark pueda ayudar a la comunidad a seguir construyendo y analizando tales aprendices.
English
As the application space of language models continues to evolve, a natural
question to ask is how we can quickly adapt models to new tasks. We approach
this classic question from a continual learning perspective, in which we aim to
continue fine-tuning models trained on past tasks on new tasks, with the goal
of "transferring" relevant knowledge. However, this strategy also runs the risk
of doing more harm than good, i.e., negative transfer. In this paper, we
construct a new benchmark of task sequences that target different possible
transfer scenarios one might face, such as a sequence of tasks with high
potential of positive transfer, high potential for negative transfer, no
expected effect, or a mixture of each. An ideal learner should be able to
maximally exploit information from all tasks that have any potential for
positive transfer, while also avoiding the negative effects of any distracting
tasks that may confuse it. We then propose a simple, yet effective, learner
that satisfies many of our desiderata simply by leveraging a selective strategy
for initializing new models from past task checkpoints. Still, limitations
remain, and we hope this benchmark can help the community to further build and
analyze such learners.