LLM-FE: 대규모 언어 모델을 진화적 최적화 도구로 활용한 테이블 데이터의 자동화된 피처 엔지니어링
LLM-FE: Automated Feature Engineering for Tabular Data with LLMs as Evolutionary Optimizers
March 18, 2025
저자: Nikhil Abhyankar, Parshin Shojaee, Chandan K. Reddy
cs.AI
초록
자동화된 특성 공학은 테이블 형식 학습 작업에서 예측 모델 성능을 향상시키는 데 중요한 역할을 합니다. 전통적인 자동화된 특성 공학 방법은 사전 정의된 변환에 의존하고 수동으로 설계된 고정된 탐색 공간에 제한되어 있어, 종종 도메인 지식을 간과합니다. 최근 대형 언어 모델(LLM)을 활용한 발전으로 인해 도메인 지식을 특성 공학 프로세스에 통합할 수 있게 되었습니다. 그러나 기존의 LLM 기반 접근법은 직접 프롬프팅을 사용하거나 검증 점수만을 기반으로 특성을 선택하여, 이전의 특성 발견 실험에서 얻은 통찰을 활용하거나 특성 생성과 데이터 기반 성능 간의 의미 있는 추론을 확립하지 못했습니다. 이러한 문제를 해결하기 위해, 우리는 LLM-FE라는 새로운 프레임워크를 제안합니다. LLM-FE는 진화 탐색과 LLM의 도메인 지식 및 추론 능력을 결합하여 테이블 형식 학습 작업을 위한 효과적인 특성을 자동으로 발견합니다. LLM-FE는 특성 공학을 프로그램 탐색 문제로 공식화하며, LLM이 반복적으로 새로운 특성 변환 프로그램을 제안하고 데이터 기반 피드백이 탐색 과정을 안내합니다. 우리의 실험 결과는 LLM-FE가 다양한 분류 및 회귀 벤치마크에서 최첨단 기준선을 일관되게 능가하며, 테이블 형식 예측 모델의 성능을 크게 향상시킴을 보여줍니다.
English
Automated feature engineering plays a critical role in improving predictive
model performance for tabular learning tasks. Traditional automated feature
engineering methods are limited by their reliance on pre-defined
transformations within fixed, manually designed search spaces, often neglecting
domain knowledge. Recent advances using Large Language Models (LLMs) have
enabled the integration of domain knowledge into the feature engineering
process. However, existing LLM-based approaches use direct prompting or rely
solely on validation scores for feature selection, failing to leverage insights
from prior feature discovery experiments or establish meaningful reasoning
between feature generation and data-driven performance. To address these
challenges, we propose LLM-FE, a novel framework that combines evolutionary
search with the domain knowledge and reasoning capabilities of LLMs to
automatically discover effective features for tabular learning tasks. LLM-FE
formulates feature engineering as a program search problem, where LLMs propose
new feature transformation programs iteratively, and data-driven feedback
guides the search process. Our results demonstrate that LLM-FE consistently
outperforms state-of-the-art baselines, significantly enhancing the performance
of tabular prediction models across diverse classification and regression
benchmarks.Summary
AI-Generated Summary