Het onderzoeken van formaatconsistentie voor instructieafstemming
Exploring Format Consistency for Instruction Tuning
July 28, 2023
Auteurs: Shihao Liang, Kunlun Zhu, Runchu Tian, Yujia Qin, Huadong Wang, Xin Cong, Zhiyuan Liu, Xiaojiang Liu, Maosong Sun
cs.AI
Samenvatting
Instructieafstemming is naar voren gekomen als een veelbelovende aanpak om grote taalmodellen te verbeteren in het volgen van menselijke instructies. Het is aangetoond dat het vergroten van de diversiteit en het aantal instructies in de trainingsdata consistent de generalisatieprestaties kan verbeteren, wat een recente inspanning stimuleert om diverse instructies te verzamelen en bestaande instructieafstemmingsdatasets te integreren in grotere collecties. Echter, verschillende gebruikers hebben hun unieke manieren om instructies uit te drukken, en er bestaan vaak variaties tussen verschillende datasets in de stijl en opmaak van instructies, d.w.z. opmaakonconsistentie. In dit werk onderzoeken we hoe opmaakonconsistentie de prestaties van instructieafstemming kan beïnvloeden. We stellen een raamwerk voor genaamd "Unified Instruction Tuning" (UIT), dat OpenAI API's aanroept voor automatische opmaakoverdracht tussen verschillende instructieafstemmingsdatasets. We tonen aan dat UIT met succes de generalisatieprestaties op onbekende instructies verbetert, wat het belang van opmaakconsistentie voor instructieafstemming benadrukt. Om het UIT-raamwerk praktischer te maken, stellen we verder een nieuwe perplexiteit-gebaseerde ruisreductiemethode voor om de ruis van automatische opmaakoverdracht te verminderen. We trainen ook een kleiner offline model dat vergelijkbare opmaakoverdrachtcapaciteit bereikt als OpenAI API's om de kosten in de praktijk te verlagen.
English
Instruction tuning has emerged as a promising approach to enhancing large
language models in following human instructions. It is shown that increasing
the diversity and number of instructions in the training data can consistently
enhance generalization performance, which facilitates a recent endeavor to
collect various instructions and integrate existing instruction tuning datasets
into larger collections. However, different users have their unique ways of
expressing instructions, and there often exist variations across different
datasets in the instruction styles and formats, i.e., format inconsistency. In
this work, we study how format inconsistency may impact the performance of
instruction tuning. We propose a framework called "Unified Instruction Tuning"
(UIT), which calls OpenAI APIs for automatic format transfer among different
instruction tuning datasets. We show that UIT successfully improves the
generalization performance on unseen instructions, which highlights the
importance of format consistency for instruction tuning. To make the UIT
framework more practical, we further propose a novel perplexity-based denoising
method to reduce the noise of automatic format transfer. We also train a
smaller offline model that achieves comparable format transfer capability than
OpenAI APIs to reduce costs in practice.