LLM-FE : Ingénierie de caractéristiques automatisée pour les données tabulaires utilisant les LLM comme optimiseurs évolutionnaires
LLM-FE: Automated Feature Engineering for Tabular Data with LLMs as Evolutionary Optimizers
March 18, 2025
Auteurs: Nikhil Abhyankar, Parshin Shojaee, Chandan K. Reddy
cs.AI
Résumé
L'ingénierie automatisée des caractéristiques joue un rôle crucial dans l'amélioration des performances des modèles prédictifs pour les tâches d'apprentissage tabulaire. Les méthodes traditionnelles d'ingénierie automatisée des caractéristiques sont limitées par leur dépendance à des transformations prédéfinies dans des espaces de recherche fixes et conçus manuellement, négligeant souvent les connaissances du domaine. Les avancées récentes utilisant les modèles de langage à grande échelle (LLM) ont permis l'intégration des connaissances du domaine dans le processus d'ingénierie des caractéristiques. Cependant, les approches existantes basées sur les LLM utilisent des invites directes ou s'appuient uniquement sur les scores de validation pour la sélection des caractéristiques, ne tirant pas parti des insights issus des expériences précédentes de découverte de caractéristiques ni n'établissant de raisonnement significatif entre la génération des caractéristiques et les performances basées sur les données. Pour relever ces défis, nous proposons LLM-FE, un cadre novateur qui combine la recherche évolutive avec les connaissances du domaine et les capacités de raisonnement des LLM pour découvrir automatiquement des caractéristiques efficaces pour les tâches d'apprentissage tabulaire. LLM-FE formule l'ingénierie des caractéristiques comme un problème de recherche de programmes, où les LLM proposent itérativement de nouveaux programmes de transformation de caractéristiques, et où les retours basés sur les données guident le processus de recherche. Nos résultats démontrent que LLM-FE surpasse systématiquement les meilleures méthodes de référence, améliorant significativement les performances des modèles de prédiction tabulaire sur divers benchmarks de classification et de régression.
English
Automated feature engineering plays a critical role in improving predictive
model performance for tabular learning tasks. Traditional automated feature
engineering methods are limited by their reliance on pre-defined
transformations within fixed, manually designed search spaces, often neglecting
domain knowledge. Recent advances using Large Language Models (LLMs) have
enabled the integration of domain knowledge into the feature engineering
process. However, existing LLM-based approaches use direct prompting or rely
solely on validation scores for feature selection, failing to leverage insights
from prior feature discovery experiments or establish meaningful reasoning
between feature generation and data-driven performance. To address these
challenges, we propose LLM-FE, a novel framework that combines evolutionary
search with the domain knowledge and reasoning capabilities of LLMs to
automatically discover effective features for tabular learning tasks. LLM-FE
formulates feature engineering as a program search problem, where LLMs propose
new feature transformation programs iteratively, and data-driven feedback
guides the search process. Our results demonstrate that LLM-FE consistently
outperforms state-of-the-art baselines, significantly enhancing the performance
of tabular prediction models across diverse classification and regression
benchmarks.Summary
AI-Generated Summary