ChatPaper.aiChatPaper

Pré-entraînement du modèle de langage en tant qu'apprenant de cours multi-perspectives

Pre-training Language Model as a Multi-perspective Course Learner

May 6, 2023
Auteurs: Beiduo Chen, Shaohan Huang, Zihan Zhang, Wu Guo, Zhenhua Ling, Haizhen Huang, Furu Wei, Weiwei Deng, Qi Zhang
cs.AI

Résumé

ELECTRA, le cadre de pré-entraînement générateur-discriminateur, a démontré une capacité impressionnante de construction sémantique dans diverses tâches en aval. Malgré ses performances convaincantes, ELECTRA reste confronté aux défis d'un entraînement monotone et d'une interaction insuffisante. Un générateur basé uniquement sur la modélisation de langage masqué (MLM) entraîne un apprentissage biaisé et un déséquilibre des étiquettes pour le discriminateur, réduisant ainsi l'efficacité de l'apprentissage ; l'absence de boucle de rétroaction explicite du discriminateur vers le générateur crée un fossé entre ces deux composants, sous-exploitant l'apprentissage progressif. Dans cette étude, une méthode d'apprentissage progressif multi-perspective (MCL) est proposée pour offrir de multiples degrés et angles visuels afin d'optimiser l'échantillonnage lors du pré-entraînement, et pour exploiter pleinement la relation entre le générateur et le discriminateur. Concrètement, trois cours d'auto-supervision sont conçus pour atténuer les défauts inhérents au MLM et équilibrer les étiquettes de manière multi-perspective. En outre, deux cours d'auto-correction sont proposés pour combler le fossé entre les deux encodeurs en créant un "carnet de correction" pour une supervision secondaire. Par ailleurs, un essai de "soupe de cours" est mené pour résoudre le problème dynamique de "tir à la corde" du MCL, permettant d'évoluer vers un modèle pré-entraîné plus robuste. Les résultats expérimentaux montrent que notre méthode améliore significativement les performances moyennes d'ELECTRA de 2,8 % et 3,2 points absolus respectivement sur les benchmarks GLUE et SQuAD 2.0, et surpasse les modèles récents de style ELECTRA dans les mêmes conditions. Le modèle MCL pré-entraîné est disponible à l'adresse https://huggingface.co/McmanusChen/MCL-base.
English
ELECTRA, the generator-discriminator pre-training framework, has achieved impressive semantic construction capability among various downstream tasks. Despite the convincing performance, ELECTRA still faces the challenges of monotonous training and deficient interaction. Generator with only masked language modeling (MLM) leads to biased learning and label imbalance for discriminator, decreasing learning efficiency; no explicit feedback loop from discriminator to generator results in the chasm between these two components, underutilizing the course learning. In this study, a multi-perspective course learning (MCL) method is proposed to fetch a many degrees and visual angles for sample-efficient pre-training, and to fully leverage the relationship between generator and discriminator. Concretely, three self-supervision courses are designed to alleviate inherent flaws of MLM and balance the label in a multi-perspective way. Besides, two self-correction courses are proposed to bridge the chasm between the two encoders by creating a "correction notebook" for secondary-supervision. Moreover, a course soups trial is conducted to solve the "tug-of-war" dynamics problem of MCL, evolving a stronger pre-trained model. Experimental results show that our method significantly improves ELECTRA's average performance by 2.8% and 3.2% absolute points respectively on GLUE and SQuAD 2.0 benchmarks, and overshadows recent advanced ELECTRA-style models under the same settings. The pre-trained MCL model is available at https://huggingface.co/McmanusChen/MCL-base.
PDF10December 15, 2024