Em Direção a um Aprendizado de Linguagem Contínuo Robusto e Eficiente
Towards Robust and Efficient Continual Language Learning
July 11, 2023
Autores: Adam Fisch, Amal Rannen-Triki, Razvan Pascanu, Jörg Bornschein, Angeliki Lazaridou, Elena Gribovskaya, Marc'Aurelio Ranzato
cs.AI
Resumo
À medida que o espaço de aplicação dos modelos de linguagem continua a evoluir, uma questão natural a se fazer é como podemos adaptar rapidamente os modelos a novas tarefas. Abordamos essa questão clássica a partir de uma perspectiva de aprendizado contínuo, na qual buscamos continuar o ajuste fino de modelos treinados em tarefas passadas para novas tarefas, com o objetivo de "transferir" conhecimento relevante. No entanto, essa estratégia também corre o risco de causar mais mal do que bem, ou seja, transferência negativa. Neste artigo, construímos um novo benchmark de sequências de tarefas que visam diferentes cenários de transferência que podem surgir, como uma sequência de tarefas com alto potencial de transferência positiva, alto potencial de transferência negativa, nenhum efeito esperado ou uma mistura de cada um. Um aprendiz ideal deve ser capaz de explorar ao máximo as informações de todas as tarefas que tenham qualquer potencial de transferência positiva, ao mesmo tempo em que evita os efeitos negativos de tarefas que possam distraí-lo ou confundi-lo. Em seguida, propomos um aprendiz simples, porém eficaz, que satisfaz muitos dos nossos desejos simplesmente utilizando uma estratégia seletiva para inicializar novos modelos a partir de checkpoints de tarefas anteriores. Ainda assim, limitações permanecem, e esperamos que este benchmark possa ajudar a comunidade a desenvolver e analisar ainda mais esses aprendizes.
English
As the application space of language models continues to evolve, a natural
question to ask is how we can quickly adapt models to new tasks. We approach
this classic question from a continual learning perspective, in which we aim to
continue fine-tuning models trained on past tasks on new tasks, with the goal
of "transferring" relevant knowledge. However, this strategy also runs the risk
of doing more harm than good, i.e., negative transfer. In this paper, we
construct a new benchmark of task sequences that target different possible
transfer scenarios one might face, such as a sequence of tasks with high
potential of positive transfer, high potential for negative transfer, no
expected effect, or a mixture of each. An ideal learner should be able to
maximally exploit information from all tasks that have any potential for
positive transfer, while also avoiding the negative effects of any distracting
tasks that may confuse it. We then propose a simple, yet effective, learner
that satisfies many of our desiderata simply by leveraging a selective strategy
for initializing new models from past task checkpoints. Still, limitations
remain, and we hope this benchmark can help the community to further build and
analyze such learners.