ChatPaper.aiChatPaper

¿Ha mejorado tu modelo preentrenado? Un enfoque basado en una posterior multi-cabezal

Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach

January 2, 2024
Autores: Prince Aboagye, Yan Zheng, Junpeng Wang, Uday Singh Saini, Xin Dai, Michael Yeh, Yujie Fan, Zhongfang Zhuang, Shubham Jain, Liang Wang, Wei Zhang
cs.AI

Resumen

El surgimiento de modelos preentrenados ha tenido un impacto significativo, desde el Procesamiento del Lenguaje Natural (PLN) y la Visión por Computador hasta los conjuntos de datos relacionales. Tradicionalmente, estos modelos se evalúan mediante tareas específicas ajustadas (fine-tuning). Sin embargo, esto plantea la cuestión de cómo evaluar estos modelos de manera más eficiente y efectiva. En este estudio, exploramos un enfoque novedoso en el que aprovechamos las características meta asociadas con cada entidad como fuente de conocimiento del mundo y empleamos las representaciones de entidades de los modelos. Proponemos utilizar la consistencia entre estas representaciones y las características meta como una métrica para evaluar modelos preentrenados. La efectividad de nuestro método se demuestra en diversos dominios, incluyendo modelos con conjuntos de datos relacionales, modelos de lenguaje de gran escala y modelos de imágenes.
English
The emergence of pretrained models has significantly impacted from Natural Language Processing (NLP) and Computer Vision to relational datasets. Traditionally, these models are assessed through fine-tuned downstream tasks. However, this raises the question of how to evaluate these models more efficiently and more effectively. In this study, we explore a novel approach where we leverage the meta features associated with each entity as a source of worldly knowledge and employ entity representations from the models. We propose using the consistency between these representations and the meta features as a metric for evaluating pretrained models. Our method's effectiveness is demonstrated across various domains, including models with relational datasets, large language models and images models.
PDF100December 15, 2024