Será que os Modelos Podem nos Ajudar a Criar Melhores Modelos? Avaliando LLMs como Cientistas de Dados
Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists
October 30, 2024
Autores: Michał Pietruszka, Łukasz Borchmann, Aleksander Jędrosz, Paweł Morawiecki
cs.AI
Resumo
Apresentamos um referencial para grandes modelos de linguagem projetados para lidar com uma das tarefas mais intensivas em conhecimento em ciência de dados: escrever código de engenharia de características, que requer conhecimento de domínio além de uma compreensão profunda do problema subjacente e da estrutura de dados. O modelo recebe uma descrição do conjunto de dados em um prompt e é solicitado a gerar código para transformá-lo. A pontuação de avaliação é derivada da melhoria alcançada por um modelo XGBoost ajustado no conjunto de dados modificado em comparação com os dados originais. Por meio de uma avaliação extensiva de modelos de ponta e comparação com referências bem estabelecidas, demonstramos que o FeatEng de nossa proposta pode avaliar de forma barata e eficiente as amplas capacidades de LLMs, em contraste com os métodos existentes.
English
We present a benchmark for large language models designed to tackle one of
the most knowledge-intensive tasks in data science: writing feature engineering
code, which requires domain knowledge in addition to a deep understanding of
the underlying problem and data structure. The model is provided with a dataset
description in a prompt and asked to generate code transforming it. The
evaluation score is derived from the improvement achieved by an XGBoost model
fit on the modified dataset compared to the original data. By an extensive
evaluation of state-of-the-art models and comparison to well-established
benchmarks, we demonstrate that the FeatEng of our proposal can cheaply and
efficiently assess the broad capabilities of LLMs, in contrast to the existing
methods.Summary
AI-Generated Summary