Exploration de la cohérence des formats pour le réglage par instruction
Exploring Format Consistency for Instruction Tuning
July 28, 2023
Auteurs: Shihao Liang, Kunlun Zhu, Runchu Tian, Yujia Qin, Huadong Wang, Xin Cong, Zhiyuan Liu, Xiaojiang Liu, Maosong Sun
cs.AI
Résumé
Le réglage par instructions (instruction tuning) s'est imposé comme une approche prometteuse pour améliorer la capacité des grands modèles de langage à suivre les instructions humaines. Il a été démontré qu'augmenter la diversité et le nombre d'instructions dans les données d'entraînement améliore de manière constante les performances de généralisation, ce qui a motivé des efforts récents pour collecter diverses instructions et intégrer des ensembles de données existants de réglage par instructions dans des collections plus vastes. Cependant, différents utilisateurs ont leurs propres manières d'exprimer des instructions, et il existe souvent des variations entre les ensembles de données en termes de styles et de formats d'instructions, c'est-à-dire une incohérence de format. Dans ce travail, nous étudions comment l'incohérence de format peut influencer les performances du réglage par instructions. Nous proposons un cadre appelé "Unified Instruction Tuning" (UIT), qui utilise les API d'OpenAI pour effectuer un transfert automatique de format entre différents ensembles de données de réglage par instructions. Nous montrons que l'UIT améliore avec succès les performances de généralisation sur des instructions non vues, ce qui souligne l'importance de la cohérence de format pour le réglage par instructions. Pour rendre le cadre UIT plus pratique, nous proposons également une nouvelle méthode de réduction du bruit basée sur la perplexité pour diminuer le bruit du transfert automatique de format. Nous entraînons également un modèle plus petit et hors ligne qui atteint une capacité de transfert de format comparable à celle des API d'OpenAI, afin de réduire les coûts en pratique.
English
Instruction tuning has emerged as a promising approach to enhancing large
language models in following human instructions. It is shown that increasing
the diversity and number of instructions in the training data can consistently
enhance generalization performance, which facilitates a recent endeavor to
collect various instructions and integrate existing instruction tuning datasets
into larger collections. However, different users have their unique ways of
expressing instructions, and there often exist variations across different
datasets in the instruction styles and formats, i.e., format inconsistency. In
this work, we study how format inconsistency may impact the performance of
instruction tuning. We propose a framework called "Unified Instruction Tuning"
(UIT), which calls OpenAI APIs for automatic format transfer among different
instruction tuning datasets. We show that UIT successfully improves the
generalization performance on unseen instructions, which highlights the
importance of format consistency for instruction tuning. To make the UIT
framework more practical, we further propose a novel perplexity-based denoising
method to reduce the noise of automatic format transfer. We also train a
smaller offline model that achieves comparable format transfer capability than
OpenAI APIs to reduce costs in practice.