LLM-FE: Engenharia de Recursos Automatizada para Dados Tabulares com LLMs como Otimizadores Evolutivos
LLM-FE: Automated Feature Engineering for Tabular Data with LLMs as Evolutionary Optimizers
March 18, 2025
Autores: Nikhil Abhyankar, Parshin Shojaee, Chandan K. Reddy
cs.AI
Resumo
A engenharia de recursos automatizada desempenha um papel crucial na melhoria do desempenho de modelos preditivos para tarefas de aprendizado tabular. Os métodos tradicionais de engenharia de recursos automatizados são limitados por sua dependência de transformações predefinidas dentro de espaços de busca fixos e projetados manualmente, muitas vezes negligenciando o conhecimento do domínio. Avanços recentes utilizando Modelos de Linguagem de Grande Escala (LLMs) permitiram a integração do conhecimento do domínio no processo de engenharia de recursos. No entanto, as abordagens existentes baseadas em LLMs utilizam prompts diretos ou dependem exclusivamente de pontuações de validação para seleção de recursos, falhando em aproveitar insights de experimentos anteriores de descoberta de recursos ou estabelecer raciocínios significativos entre a geração de recursos e o desempenho orientado por dados. Para enfrentar esses desafios, propomos o LLM-FE, um novo framework que combina busca evolucionária com o conhecimento do domínio e as capacidades de raciocínio dos LLMs para descobrir automaticamente recursos eficazes para tarefas de aprendizado tabular. O LLM-FE formula a engenharia de recursos como um problema de busca de programas, onde os LLMs propõem iterativamente novos programas de transformação de recursos, e o feedback orientado por dados guia o processo de busca. Nossos resultados demonstram que o LLM-FE supera consistentemente as abordagens state-of-the-art, melhorando significativamente o desempenho de modelos de predição tabular em diversos benchmarks de classificação e regressão.
English
Automated feature engineering plays a critical role in improving predictive
model performance for tabular learning tasks. Traditional automated feature
engineering methods are limited by their reliance on pre-defined
transformations within fixed, manually designed search spaces, often neglecting
domain knowledge. Recent advances using Large Language Models (LLMs) have
enabled the integration of domain knowledge into the feature engineering
process. However, existing LLM-based approaches use direct prompting or rely
solely on validation scores for feature selection, failing to leverage insights
from prior feature discovery experiments or establish meaningful reasoning
between feature generation and data-driven performance. To address these
challenges, we propose LLM-FE, a novel framework that combines evolutionary
search with the domain knowledge and reasoning capabilities of LLMs to
automatically discover effective features for tabular learning tasks. LLM-FE
formulates feature engineering as a program search problem, where LLMs propose
new feature transformation programs iteratively, and data-driven feedback
guides the search process. Our results demonstrate that LLM-FE consistently
outperforms state-of-the-art baselines, significantly enhancing the performance
of tabular prediction models across diverse classification and regression
benchmarks.Summary
AI-Generated Summary