ChatPaper.aiChatPaper

К устойчивому и эффективному непрерывному обучению языковых моделей

Towards Robust and Efficient Continual Language Learning

July 11, 2023
Авторы: Adam Fisch, Amal Rannen-Triki, Razvan Pascanu, Jörg Bornschein, Angeliki Lazaridou, Elena Gribovskaya, Marc'Aurelio Ranzato
cs.AI

Аннотация

По мере развития области применения языковых моделей возникает естественный вопрос: как можно быстро адаптировать модели к новым задачам. Мы подходим к этому классическому вопросу с точки зрения непрерывного обучения, где цель заключается в продолжении тонкой настройки моделей, обученных на предыдущих задачах, для новых задач с целью "переноса" релевантных знаний. Однако такая стратегия также несет риск причинения большего вреда, чем пользы, то есть отрицательного переноса. В данной работе мы создаем новый эталонный набор последовательностей задач, которые охватывают различные возможные сценарии переноса, с которыми можно столкнуться, например, последовательности задач с высоким потенциалом положительного переноса, высоким потенциалом отрицательного переноса, отсутствием ожидаемого эффекта или их смешением. Идеальный обучающийся алгоритм должен максимально использовать информацию из всех задач, которые имеют потенциал для положительного переноса, одновременно избегая негативных эффектов от отвлекающих задач, которые могут его запутать. Мы предлагаем простой, но эффективный алгоритм, который удовлетворяет многим нашим требованиям, просто используя избирательную стратегию для инициализации новых моделей на основе контрольных точек предыдущих задач. Тем не менее, ограничения остаются, и мы надеемся, что этот эталонный набор поможет сообществу в дальнейшем разработке и анализе таких алгоритмов.
English
As the application space of language models continues to evolve, a natural question to ask is how we can quickly adapt models to new tasks. We approach this classic question from a continual learning perspective, in which we aim to continue fine-tuning models trained on past tasks on new tasks, with the goal of "transferring" relevant knowledge. However, this strategy also runs the risk of doing more harm than good, i.e., negative transfer. In this paper, we construct a new benchmark of task sequences that target different possible transfer scenarios one might face, such as a sequence of tasks with high potential of positive transfer, high potential for negative transfer, no expected effect, or a mixture of each. An ideal learner should be able to maximally exploit information from all tasks that have any potential for positive transfer, while also avoiding the negative effects of any distracting tasks that may confuse it. We then propose a simple, yet effective, learner that satisfies many of our desiderata simply by leveraging a selective strategy for initializing new models from past task checkpoints. Still, limitations remain, and we hope this benchmark can help the community to further build and analyze such learners.
PDF50December 15, 2024