ChatPaper.aiChatPaper

Предварительное обучение для освоения контекстного понимания

Pre-Training to Learn in Context

May 16, 2023
Авторы: Yuxian Gu, Li Dong, Furu Wei, Minlie Huang
cs.AI

Аннотация

Обучение в контексте, при котором предварительно обученные языковые модели учатся выполнять задачи на основе примеров и инструкций, представленных в их контексте, привлекло значительное внимание в сообществе NLP. Однако потенциал обучения в контексте не полностью раскрыт, поскольку языковые модели не обучаются явным образом для такого типа обучения. С этой целью мы предлагаем PICL (Pre-training for In-Context Learning) — фреймворк для улучшения способности языковых моделей к обучению в контексте путем предварительного обучения модели на большом наборе "внутренних задач" в общем корпусе текстов с использованием простой задачи языкового моделирования. PICL побуждает модель выводить и выполнять задачи, основываясь на контексте, сохраняя при этом обобщающую способность предварительно обученных моделей. Мы оцениваем производительность модели, обученной с помощью PICL, на семи широко используемых наборах данных для классификации текстов и на бенчмарке Super-NaturalInstructions, который содержит более 100 задач NLP, сформулированных как задачи генерации текста. Наши эксперименты показывают, что PICL более эффективен и лучше обобщает задачи по сравнению с рядом базовых моделей, превосходя более крупные языковые модели с почти в 4 раза большим количеством параметров. Код доступен по адресу https://github.com/thu-coai/PICL.
English
In-context learning, where pre-trained language models learn to perform tasks from task examples and instructions in their contexts, has attracted much attention in the NLP community. However, the ability of in-context learning is not fully exploited because language models are not explicitly trained to learn in context. To this end, we propose PICL (Pre-training for In-Context Learning), a framework to enhance the language models' in-context learning ability by pre-training the model on a large collection of "intrinsic tasks" in the general plain-text corpus using the simple language modeling objective. PICL encourages the model to infer and perform tasks by conditioning on the contexts while maintaining task generalization of pre-trained models. We evaluate the in-context learning performance of the model trained with PICL on seven widely-used text classification datasets and the Super-NaturalInstrctions benchmark, which contains 100+ NLP tasks formulated to text generation. Our experiments show that PICL is more effective and task-generalizable than a range of baselines, outperforming larger language models with nearly 4x parameters. The code is publicly available at https://github.com/thu-coai/PICL.
PDF20December 15, 2024