¿Ha mejorado tu modelo preentrenado? Un enfoque basado en una posterior multi-cabezal
Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach
January 2, 2024
Autores: Prince Aboagye, Yan Zheng, Junpeng Wang, Uday Singh Saini, Xin Dai, Michael Yeh, Yujie Fan, Zhongfang Zhuang, Shubham Jain, Liang Wang, Wei Zhang
cs.AI
Resumen
El surgimiento de modelos preentrenados ha tenido un impacto significativo, desde el Procesamiento del Lenguaje Natural (PLN) y la Visión por Computador hasta los conjuntos de datos relacionales. Tradicionalmente, estos modelos se evalúan mediante tareas específicas ajustadas (fine-tuning). Sin embargo, esto plantea la cuestión de cómo evaluar estos modelos de manera más eficiente y efectiva. En este estudio, exploramos un enfoque novedoso en el que aprovechamos las características meta asociadas con cada entidad como fuente de conocimiento del mundo y empleamos las representaciones de entidades de los modelos. Proponemos utilizar la consistencia entre estas representaciones y las características meta como una métrica para evaluar modelos preentrenados. La efectividad de nuestro método se demuestra en diversos dominios, incluyendo modelos con conjuntos de datos relacionales, modelos de lenguaje de gran escala y modelos de imágenes.
English
The emergence of pretrained models has significantly impacted from Natural
Language Processing (NLP) and Computer Vision to relational datasets.
Traditionally, these models are assessed through fine-tuned downstream tasks.
However, this raises the question of how to evaluate these models more
efficiently and more effectively. In this study, we explore a novel approach
where we leverage the meta features associated with each entity as a source of
worldly knowledge and employ entity representations from the models. We propose
using the consistency between these representations and the meta features as a
metric for evaluating pretrained models. Our method's effectiveness is
demonstrated across various domains, including models with relational datasets,
large language models and images models.