Voorafgaande training om in context te leren

Samenvatting

In-context learning, waarbij vooraf getrainde taalmodel leren om taken uit te voeren aan de hand van taakvoorbeelden en instructies in hun context, heeft veel aandacht gekregen in de NLP-gemeenschap. Het vermogen van in-context learning wordt echter niet volledig benut omdat taalmodel niet expliciet worden getraind om in context te leren. Daarom stellen we PICL (Pre-training for In-Context Learning) voor, een raamwerk om het in-context learning vermogen van taalmodel te verbeteren door het model voor te trainen op een grote verzameling "intrinsieke taken" in een algemeen tekstcorpus met behulp van het eenvoudige taalmodelleerdoel. PICL moedigt het model aan om taken af te leiden en uit te voeren door zich te conditioneren op de contexten, terwijl het de taakgeneraliseerbaarheid van vooraf getrainde modellen behoudt. We evalueren de in-context learning prestaties van het model dat met PICL is getraind op zeven veelgebruikte tekstclassificatiedatasets en de Super-NaturalInstructions benchmark, die meer dan 100 NLP-taken bevat die zijn geformuleerd als tekstgeneratie. Onze experimenten tonen aan dat PICL effectiever en beter generaliseerbaar is dan een reeks baselines, waarbij het grotere taalmodel met bijna 4x zoveel parameters overtreft. De code is publiekelijk beschikbaar op https://github.com/thu-coai/PICL.

English

In-context learning, where pre-trained language models learn to perform tasks from task examples and instructions in their contexts, has attracted much attention in the NLP community. However, the ability of in-context learning is not fully exploited because language models are not explicitly trained to learn in context. To this end, we propose PICL (Pre-training for In-Context Learning), a framework to enhance the language models' in-context learning ability by pre-training the model on a large collection of "intrinsic tasks" in the general plain-text corpus using the simple language modeling objective. PICL encourages the model to infer and perform tasks by conditioning on the contexts while maintaining task generalization of pre-trained models. We evaluate the in-context learning performance of the model trained with PICL on seven widely-used text classification datasets and the Super-NaturalInstrctions benchmark, which contains 100+ NLP tasks formulated to text generation. Our experiments show that PICL is more effective and task-generalizable than a range of baselines, outperforming larger language models with nearly 4x parameters. The code is publicly available at https://github.com/thu-coai/PICL.

Voorafgaande training om in context te leren

Pre-Training to Learn in Context

Samenvatting

Support