堅牢で効率的な継続的言語学習に向けて
Towards Robust and Efficient Continual Language Learning
July 11, 2023
著者: Adam Fisch, Amal Rannen-Triki, Razvan Pascanu, Jörg Bornschein, Angeliki Lazaridou, Elena Gribovskaya, Marc'Aurelio Ranzato
cs.AI
要旨
言語モデルの応用領域が進化し続ける中で、自然と生じる疑問は、新しいタスクにモデルを迅速に適応させる方法です。私たちはこの古典的な問いに、継続学習の観点からアプローチします。ここでは、過去のタスクで訓練されたモデルを新しいタスクに微調整し続け、関連する知識を「転移」することを目指します。しかし、この戦略は逆効果をもたらすリスク、すなわち負の転移を引き起こす可能性もあります。本論文では、異なる転移シナリオを想定したタスクシーケンスの新しいベンチマークを構築します。例えば、正の転移の可能性が高いシーケンス、負の転移の可能性が高いシーケンス、効果が期待されないシーケンス、またはそれらの混合などです。理想的な学習者は、正の転移の可能性があるすべてのタスクから最大限に情報を活用しつつ、混乱を招くような注意散漫なタスクの悪影響を回避できるべきです。そこで私たちは、過去のタスクのチェックポイントから新しいモデルを選択的に初期化するというシンプルでありながら効果的な学習者を提案します。それでも限界は残っており、このベンチマークがコミュニティにとって、そのような学習者をさらに構築し分析するための一助となることを期待しています。
English
As the application space of language models continues to evolve, a natural
question to ask is how we can quickly adapt models to new tasks. We approach
this classic question from a continual learning perspective, in which we aim to
continue fine-tuning models trained on past tasks on new tasks, with the goal
of "transferring" relevant knowledge. However, this strategy also runs the risk
of doing more harm than good, i.e., negative transfer. In this paper, we
construct a new benchmark of task sequences that target different possible
transfer scenarios one might face, such as a sequence of tasks with high
potential of positive transfer, high potential for negative transfer, no
expected effect, or a mixture of each. An ideal learner should be able to
maximally exploit information from all tasks that have any potential for
positive transfer, while also avoiding the negative effects of any distracting
tasks that may confuse it. We then propose a simple, yet effective, learner
that satisfies many of our desiderata simply by leveraging a selective strategy
for initializing new models from past task checkpoints. Still, limitations
remain, and we hope this benchmark can help the community to further build and
analyze such learners.