TabReD: 실제 환경에서의 테이블 형식 머신러닝 벤치마크
TabReD: A Benchmark of Tabular Machine Learning in-the-Wild
June 27, 2024
저자: Ivan Rubachev, Nikolay Kartashev, Yury Gorishniy, Artem Babenko
cs.AI
초록
다운스트림 애플리케이션 시나리오를 충실히 반영하는 벤치마크는 테이블 형식의 머신러닝(ML) 연구의 원활한 도입에 필수적입니다. 본 연구에서는 기존 테이블 형식 벤치마크를 검토하고, 학계에서 이용 가능한 데이터셋에서 저조하게 나타나는 산업급 테이블 데이터의 두 가지 공통 특성을 발견했습니다. 첫째, 실제 배포 시나리오에서 테이블 데이터는 시간에 따라 변화하는 경우가 많습니다. 이는 모델 성능에 영향을 미치며, 올바른 모델 평가를 위해 시간 기반의 훈련 및 테스트 분할이 필요합니다. 그러나 기존 학계의 테이블 데이터셋은 이러한 평가를 가능하게 하는 타임스탬프 메타데이터가 부재한 경우가 많습니다. 둘째, 프로덕션 환경에서 상당 부분의 데이터셋은 광범위한 데이터 수집 및 피처 엔지니어링 파이프라인에서 비롯됩니다. 이는 각 특정 데이터셋에 대해 예측 가능한, 정보가 없는, 상관관계가 있는 피처의 절대적 및 상대적 수에 서로 다른 영향을 미칠 수 있으며, 이는 다시 모델 선택에 영향을 줄 수 있습니다. 이러한 학계 벤치마크의 공백을 메우기 위해, 우리는 금융부터 음식 배달 서비스에 이르기까지 다양한 도메인을 아우르는 8개의 산업급 테이블 데이터셋 컬렉션인 TabReD를 소개합니다. 우리는 TabReD가 제공하는 피처가 풍부하고 시간에 따라 진화하는 데이터 환경에서 다수의 테이블 형식 ML 모델을 평가합니다. 시간 기반 데이터 분할에서의 평가가 학계 벤치마크에서 더 흔히 사용되는 무작위 분할에서의 평가와 다른 방법 순위를 초래함을 보여줍니다. 또한, TabReD 데이터셋에서는 MLP와 유사한 아키텍처와 GBDT가 최고의 성능을 보이는 반면, 더 정교한 딥러닝 모델의 효과는 아직 입증되어야 함을 확인했습니다.
English
Benchmarks that closely reflect downstream application scenarios are
essential for the streamlined adoption of new research in tabular machine
learning (ML). In this work, we examine existing tabular benchmarks and find
two common characteristics of industry-grade tabular data that are
underrepresented in the datasets available to the academic community. First,
tabular data often changes over time in real-world deployment scenarios. This
impacts model performance and requires time-based train and test splits for
correct model evaluation. Yet, existing academic tabular datasets often lack
timestamp metadata to enable such evaluation. Second, a considerable portion of
datasets in production settings stem from extensive data acquisition and
feature engineering pipelines. For each specific dataset, this can have a
different impact on the absolute and relative number of predictive,
uninformative, and correlated features, which in turn can affect model
selection. To fill the aforementioned gaps in academic benchmarks, we introduce
TabReD -- a collection of eight industry-grade tabular datasets covering a wide
range of domains from finance to food delivery services. We assess a large
number of tabular ML models in the feature-rich, temporally-evolving data
setting facilitated by TabReD. We demonstrate that evaluation on time-based
data splits leads to different methods ranking, compared to evaluation on
random splits more common in academic benchmarks. Furthermore, on the TabReD
datasets, MLP-like architectures and GBDT show the best results, while more
sophisticated DL models are yet to prove their effectiveness.Summary
AI-Generated Summary