강건하고 효율적인 지속적 언어 학습을 향하여
Towards Robust and Efficient Continual Language Learning
July 11, 2023
저자: Adam Fisch, Amal Rannen-Triki, Razvan Pascanu, Jörg Bornschein, Angeliki Lazaridou, Elena Gribovskaya, Marc'Aurelio Ranzato
cs.AI
초록
언어 모델의 응용 분야가 계속 진화함에 따라, 새로운 작업에 모델을 빠르게 적응시킬 수 있는 방법에 대한 질문이 자연스럽게 제기됩니다. 우리는 이 고전적인 질문을 지속 학습 관점에서 접근하며, 과거 작업에서 훈련된 모델을 새로운 작업에 대해 계속 미세 조정함으로써 관련 지식을 "전이"하는 것을 목표로 합니다. 그러나 이 전략은 오히려 역효과를 낼 위험, 즉 부정적 전이의 위험도 내포하고 있습니다. 본 논문에서는 긍정적 전이의 가능성이 높은 작업 시퀀스, 부정적 전이의 가능성이 높은 작업 시퀀스, 예상되는 효과가 없는 작업 시퀀스, 또는 이들의 혼합 등 다양한 전이 시나리오를 대상으로 하는 새로운 벤치마크를 구축합니다. 이상적인 학습자는 긍정적 전이의 가능성이 있는 모든 작업에서 정보를 최대한 활용할 수 있어야 하며, 동시에 학습자를 혼란스럽게 할 수 있는 방해 작업의 부정적인 영향을 피할 수 있어야 합니다. 우리는 과거 작업 체크포인트에서 새로운 모델을 초기화하기 위한 선택적 전략을 활용함으로써 이러한 요구 사항을 충족하는 간단하지만 효과적인 학습자를 제안합니다. 여전히 한계는 존재하지만, 이 벤치마크가 커뮤니티가 이러한 학습자를 더욱 구축하고 분석하는 데 도움이 되기를 바랍니다.
English
As the application space of language models continues to evolve, a natural
question to ask is how we can quickly adapt models to new tasks. We approach
this classic question from a continual learning perspective, in which we aim to
continue fine-tuning models trained on past tasks on new tasks, with the goal
of "transferring" relevant knowledge. However, this strategy also runs the risk
of doing more harm than good, i.e., negative transfer. In this paper, we
construct a new benchmark of task sequences that target different possible
transfer scenarios one might face, such as a sequence of tasks with high
potential of positive transfer, high potential for negative transfer, no
expected effect, or a mixture of each. An ideal learner should be able to
maximally exploit information from all tasks that have any potential for
positive transfer, while also avoiding the negative effects of any distracting
tasks that may confuse it. We then propose a simple, yet effective, learner
that satisfies many of our desiderata simply by leveraging a selective strategy
for initializing new models from past task checkpoints. Still, limitations
remain, and we hope this benchmark can help the community to further build and
analyze such learners.