LLM-FE : Ingénierie de caractéristiques automatisée pour les données tabulaires utilisant les LLM comme optimiseurs évolutionnaires

Résumé

L'ingénierie automatisée des caractéristiques joue un rôle crucial dans l'amélioration des performances des modèles prédictifs pour les tâches d'apprentissage tabulaire. Les méthodes traditionnelles d'ingénierie automatisée des caractéristiques sont limitées par leur dépendance à des transformations prédéfinies dans des espaces de recherche fixes et conçus manuellement, négligeant souvent les connaissances du domaine. Les avancées récentes utilisant les modèles de langage à grande échelle (LLM) ont permis l'intégration des connaissances du domaine dans le processus d'ingénierie des caractéristiques. Cependant, les approches existantes basées sur les LLM utilisent des invites directes ou s'appuient uniquement sur les scores de validation pour la sélection des caractéristiques, ne tirant pas parti des insights issus des expériences précédentes de découverte de caractéristiques ni n'établissant de raisonnement significatif entre la génération des caractéristiques et les performances basées sur les données. Pour relever ces défis, nous proposons LLM-FE, un cadre novateur qui combine la recherche évolutive avec les connaissances du domaine et les capacités de raisonnement des LLM pour découvrir automatiquement des caractéristiques efficaces pour les tâches d'apprentissage tabulaire. LLM-FE formule l'ingénierie des caractéristiques comme un problème de recherche de programmes, où les LLM proposent itérativement de nouveaux programmes de transformation de caractéristiques, et où les retours basés sur les données guident le processus de recherche. Nos résultats démontrent que LLM-FE surpasse systématiquement les meilleures méthodes de référence, améliorant significativement les performances des modèles de prédiction tabulaire sur divers benchmarks de classification et de régression.

English

Automated feature engineering plays a critical role in improving predictive model performance for tabular learning tasks. Traditional automated feature engineering methods are limited by their reliance on pre-defined transformations within fixed, manually designed search spaces, often neglecting domain knowledge. Recent advances using Large Language Models (LLMs) have enabled the integration of domain knowledge into the feature engineering process. However, existing LLM-based approaches use direct prompting or rely solely on validation scores for feature selection, failing to leverage insights from prior feature discovery experiments or establish meaningful reasoning between feature generation and data-driven performance. To address these challenges, we propose LLM-FE, a novel framework that combines evolutionary search with the domain knowledge and reasoning capabilities of LLMs to automatically discover effective features for tabular learning tasks. LLM-FE formulates feature engineering as a program search problem, where LLMs propose new feature transformation programs iteratively, and data-driven feedback guides the search process. Our results demonstrate that LLM-FE consistently outperforms state-of-the-art baselines, significantly enhancing the performance of tabular prediction models across diverse classification and regression benchmarks.