LLM-FE: Geautomatiseerde Feature Engineering voor Tabelgegevens met LLM's als Evolutionaire Optimalisatoren
LLM-FE: Automated Feature Engineering for Tabular Data with LLMs as Evolutionary Optimizers
March 18, 2025
Auteurs: Nikhil Abhyankar, Parshin Shojaee, Chandan K. Reddy
cs.AI
Samenvatting
Geautomatiseerde feature engineering speelt een cruciale rol bij het verbeteren van de prestaties van voorspellende modellen voor tabelleer taken. Traditionele geautomatiseerde feature engineering methoden worden beperkt door hun afhankelijkheid van vooraf gedefinieerde transformaties binnen vaste, handmatig ontworpen zoekruimtes, waarbij domeinkennis vaak wordt verwaarloosd. Recente vooruitgang met behulp van Large Language Models (LLMs) heeft de integratie van domeinkennis in het feature engineering proces mogelijk gemaakt. Bestaande LLM-gebaseerde benaderingen gebruiken echter directe prompting of vertrouwen uitsluitend op validatiescores voor feature selectie, waardoor inzichten uit eerdere feature discovery experimenten niet worden benut en er geen betekenisvolle redenering wordt gevestigd tussen feature generatie en data-gedreven prestaties. Om deze uitdagingen aan te pakken, stellen we LLM-FE voor, een nieuw framework dat evolutionaire zoekmethoden combineert met de domeinkennis en redeneervaardigheden van LLMs om automatisch effectieve features te ontdekken voor tabelleer taken. LLM-FE formuleert feature engineering als een programma zoekprobleem, waarbij LLMs iteratief nieuwe feature transformatieprogramma's voorstellen en data-gedreven feedback het zoekproces begeleidt. Onze resultaten tonen aan dat LLM-FE consistent beter presteert dan state-of-the-art baseline methoden, waardoor de prestaties van tabelvoorspellingsmodellen aanzienlijk worden verbeterd op diverse classificatie- en regressiebenchmarks.
English
Automated feature engineering plays a critical role in improving predictive
model performance for tabular learning tasks. Traditional automated feature
engineering methods are limited by their reliance on pre-defined
transformations within fixed, manually designed search spaces, often neglecting
domain knowledge. Recent advances using Large Language Models (LLMs) have
enabled the integration of domain knowledge into the feature engineering
process. However, existing LLM-based approaches use direct prompting or rely
solely on validation scores for feature selection, failing to leverage insights
from prior feature discovery experiments or establish meaningful reasoning
between feature generation and data-driven performance. To address these
challenges, we propose LLM-FE, a novel framework that combines evolutionary
search with the domain knowledge and reasoning capabilities of LLMs to
automatically discover effective features for tabular learning tasks. LLM-FE
formulates feature engineering as a program search problem, where LLMs propose
new feature transformation programs iteratively, and data-driven feedback
guides the search process. Our results demonstrate that LLM-FE consistently
outperforms state-of-the-art baselines, significantly enhancing the performance
of tabular prediction models across diverse classification and regression
benchmarks.Summary
AI-Generated Summary