Voorafgaande training om in context te leren
Pre-Training to Learn in Context
May 16, 2023
Auteurs: Yuxian Gu, Li Dong, Furu Wei, Minlie Huang
cs.AI
Samenvatting
In-context learning, waarbij vooraf getrainde taalmodel leren om taken uit te voeren aan de hand van taakvoorbeelden en instructies in hun context, heeft veel aandacht gekregen in de NLP-gemeenschap. Het vermogen van in-context learning wordt echter niet volledig benut omdat taalmodel niet expliciet worden getraind om in context te leren. Daarom stellen we PICL (Pre-training for In-Context Learning) voor, een raamwerk om het in-context learning vermogen van taalmodel te verbeteren door het model voor te trainen op een grote verzameling "intrinsieke taken" in een algemeen tekstcorpus met behulp van het eenvoudige taalmodelleerdoel. PICL moedigt het model aan om taken af te leiden en uit te voeren door zich te conditioneren op de contexten, terwijl het de taakgeneraliseerbaarheid van vooraf getrainde modellen behoudt. We evalueren de in-context learning prestaties van het model dat met PICL is getraind op zeven veelgebruikte tekstclassificatiedatasets en de Super-NaturalInstructions benchmark, die meer dan 100 NLP-taken bevat die zijn geformuleerd als tekstgeneratie. Onze experimenten tonen aan dat PICL effectiever en beter generaliseerbaar is dan een reeks baselines, waarbij het grotere taalmodel met bijna 4x zoveel parameters overtreft. De code is publiekelijk beschikbaar op https://github.com/thu-coai/PICL.
English
In-context learning, where pre-trained language models learn to perform tasks
from task examples and instructions in their contexts, has attracted much
attention in the NLP community. However, the ability of in-context learning is
not fully exploited because language models are not explicitly trained to learn
in context. To this end, we propose PICL (Pre-training for In-Context
Learning), a framework to enhance the language models' in-context learning
ability by pre-training the model on a large collection of "intrinsic tasks" in
the general plain-text corpus using the simple language modeling objective.
PICL encourages the model to infer and perform tasks by conditioning on the
contexts while maintaining task generalization of pre-trained models. We
evaluate the in-context learning performance of the model trained with PICL on
seven widely-used text classification datasets and the Super-NaturalInstrctions
benchmark, which contains 100+ NLP tasks formulated to text generation. Our
experiments show that PICL is more effective and task-generalizable than a
range of baselines, outperforming larger language models with nearly 4x
parameters. The code is publicly available at https://github.com/thu-coai/PICL.