ChatPaper.aiChatPaper

¿Pueden los modelos ayudarnos a crear mejores modelos? Evaluación de LLMs como científicos de datos.

Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists

October 30, 2024
Autores: Michał Pietruszka, Łukasz Borchmann, Aleksander Jędrosz, Paweł Morawiecki
cs.AI

Resumen

Presentamos un referente para modelos de lenguaje grandes diseñado para abordar una de las tareas más intensivas en conocimiento en la ciencia de datos: escribir código de ingeniería de características, que requiere conocimiento de dominio además de una comprensión profunda del problema subyacente y la estructura de datos. El modelo recibe una descripción del conjunto de datos en un estímulo y se le pide generar código para transformarlo. La puntuación de evaluación se deriva de la mejora lograda por un modelo XGBoost ajustado en el conjunto de datos modificado en comparación con los datos originales. A través de una evaluación exhaustiva de modelos de última generación y la comparación con referentes bien establecidos, demostramos que el FeatEng de nuestra propuesta puede evaluar de manera económica y eficiente las amplias capacidades de los LLMs, en contraste con los métodos existentes.
English
We present a benchmark for large language models designed to tackle one of the most knowledge-intensive tasks in data science: writing feature engineering code, which requires domain knowledge in addition to a deep understanding of the underlying problem and data structure. The model is provided with a dataset description in a prompt and asked to generate code transforming it. The evaluation score is derived from the improvement achieved by an XGBoost model fit on the modified dataset compared to the original data. By an extensive evaluation of state-of-the-art models and comparison to well-established benchmarks, we demonstrate that the FeatEng of our proposal can cheaply and efficiently assess the broad capabilities of LLMs, in contrast to the existing methods.

Summary

AI-Generated Summary

PDF82November 16, 2024