ChatPaper.aiChatPaper

Votre modèle pré-entraîné s'est-il amélioré ? Une approche basée sur une postérieure multi-têtes

Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach

January 2, 2024
Auteurs: Prince Aboagye, Yan Zheng, Junpeng Wang, Uday Singh Saini, Xin Dai, Michael Yeh, Yujie Fan, Zhongfang Zhuang, Shubham Jain, Liang Wang, Wei Zhang
cs.AI

Résumé

L'émergence des modèles pré-entraînés a eu un impact significatif, du traitement du langage naturel (NLP) et de la vision par ordinateur jusqu'aux ensembles de données relationnelles. Traditionnellement, ces modèles sont évalués à travers des tâches en aval après un affinage. Cependant, cela soulève la question de savoir comment évaluer ces modèles de manière plus efficace et plus efficiente. Dans cette étude, nous explorons une nouvelle approche où nous exploitons les méta-caractéristiques associées à chaque entité comme source de connaissances mondaines et utilisons les représentations d'entités issues des modèles. Nous proposons d'utiliser la cohérence entre ces représentations et les méta-caractéristiques comme métrique pour évaluer les modèles pré-entraînés. L'efficacité de notre méthode est démontrée dans divers domaines, incluant les modèles avec des ensembles de données relationnelles, les grands modèles de langage et les modèles d'images.
English
The emergence of pretrained models has significantly impacted from Natural Language Processing (NLP) and Computer Vision to relational datasets. Traditionally, these models are assessed through fine-tuned downstream tasks. However, this raises the question of how to evaluate these models more efficiently and more effectively. In this study, we explore a novel approach where we leverage the meta features associated with each entity as a source of worldly knowledge and employ entity representations from the models. We propose using the consistency between these representations and the meta features as a metric for evaluating pretrained models. Our method's effectiveness is demonstrated across various domains, including models with relational datasets, large language models and images models.
PDF100December 15, 2024