ChatPaper.aiChatPaper

LLM-FE: 進化的最適化ツールとしてのLLMを用いた表形式データの自動特徴量エンジニアリング

LLM-FE: Automated Feature Engineering for Tabular Data with LLMs as Evolutionary Optimizers

March 18, 2025
著者: Nikhil Abhyankar, Parshin Shojaee, Chandan K. Reddy
cs.AI

要旨

自動特徴量エンジニアリングは、表形式データ学習タスクにおける予測モデルの性能向上に重要な役割を果たします。従来の自動特徴量エンジニアリング手法は、事前に定義された変換に依存し、手動で設計された固定の探索空間に制限されるため、ドメイン知識を十分に活用できないことが課題でした。近年、大規模言語モデル(LLM)の進展により、特徴量エンジニアリングプロセスにドメイン知識を統合することが可能になりました。しかし、既存のLLMベースのアプローチは、直接的なプロンプトを使用するか、検証スコアのみに依存して特徴量を選択するため、過去の特徴量発見実験からの洞察を活用できず、特徴量生成とデータ駆動型性能の間の意味のある推論を確立できていませんでした。これらの課題に対処するため、我々はLLM-FEを提案します。LLM-FEは、進化的探索とLLMのドメイン知識および推論能力を組み合わせ、表形式データ学習タスクにおいて効果的な特徴量を自動的に発見する新しいフレームワークです。LLM-FEは、特徴量エンジニアリングをプログラム探索問題として定式化し、LLMが新しい特徴量変換プログラムを反復的に提案し、データ駆動型フィードバックが探索プロセスを導きます。実験結果は、LLM-FEが最先端のベースラインを一貫して上回り、多様な分類および回帰ベンチマークにおいて表形式予測モデルの性能を大幅に向上させることを示しています。
English
Automated feature engineering plays a critical role in improving predictive model performance for tabular learning tasks. Traditional automated feature engineering methods are limited by their reliance on pre-defined transformations within fixed, manually designed search spaces, often neglecting domain knowledge. Recent advances using Large Language Models (LLMs) have enabled the integration of domain knowledge into the feature engineering process. However, existing LLM-based approaches use direct prompting or rely solely on validation scores for feature selection, failing to leverage insights from prior feature discovery experiments or establish meaningful reasoning between feature generation and data-driven performance. To address these challenges, we propose LLM-FE, a novel framework that combines evolutionary search with the domain knowledge and reasoning capabilities of LLMs to automatically discover effective features for tabular learning tasks. LLM-FE formulates feature engineering as a program search problem, where LLMs propose new feature transformation programs iteratively, and data-driven feedback guides the search process. Our results demonstrate that LLM-FE consistently outperforms state-of-the-art baselines, significantly enhancing the performance of tabular prediction models across diverse classification and regression benchmarks.

Summary

AI-Generated Summary

PDF72March 20, 2025