TabReD: Ein Benchmark für tabellenbasiertes maschinelles Lernen in freier Wildbahn
TabReD: A Benchmark of Tabular Machine Learning in-the-Wild
June 27, 2024
Autoren: Ivan Rubachev, Nikolay Kartashev, Yury Gorishniy, Artem Babenko
cs.AI
Zusammenfassung
Benchmarks, die eng mit den Szenarien der nachgelagerten Anwendungen übereinstimmen, sind entscheidend für die reibungslose Übernahme neuer Forschungsergebnisse im Bereich des tabellarischen maschinellen Lernens (ML). In dieser Arbeit untersuchen wir bestehende tabellarische Benchmarks und stellen zwei gemeinsame Merkmale von tabellarischen Industriedaten fest, die in den für die akademische Gemeinschaft verfügbaren Datensätzen unterrepräsentiert sind. Erstens ändern sich tabellarische Daten in Echtwelt-Einsatzszenarien im Laufe der Zeit häufig. Dies wirkt sich auf die Modellleistung aus und erfordert zeitbasierte Trainings- und Testaufteilungen für eine korrekte Modellbewertung. Dennoch fehlen in bestehenden akademischen tabellarischen Datensätzen oft Zeitstempel-Metadaten, um eine solche Bewertung zu ermöglichen. Zweitens stammen in Produktionsumgebungen ein erheblicher Teil der Datensätze aus umfangreichen Datenerfassungs- und Merkmalsextraktionspipelines. Für jeden spezifischen Datensatz kann dies unterschiedliche Auswirkungen auf die absoluten und relativen Anzahlen von prädiktiven, nicht informativen und korrelierten Merkmalen haben, was wiederum die Modellauswahl beeinflussen kann. Um die genannten Lücken in akademischen Benchmarks zu schließen, stellen wir TabReD vor - eine Sammlung von acht tabellarischen Industriedatensätzen, die eine Vielzahl von Bereichen von Finanzen bis hin zu Lebensmittellieferdiensten abdecken. Wir bewerten eine große Anzahl von tabellarischen ML-Modellen in der funktionsreichen, zeitlich sich entwickelnden Datenumgebung, die durch TabReD ermöglicht wird. Wir zeigen, dass die Bewertung anhand von zeitbasierten Datenaufteilungen zu unterschiedlichen Methodenrangfolgen führt, im Vergleich zur Bewertung anhand von zufälligen Aufteilungen, die in akademischen Benchmarks häufiger sind. Darüber hinaus erzielen auf den TabReD-Datensätzen MLP-ähnliche Architekturen und GBDT die besten Ergebnisse, während sich herausforderndere DL-Modelle noch nicht in ihrer Wirksamkeit bewährt haben.
English
Benchmarks that closely reflect downstream application scenarios are
essential for the streamlined adoption of new research in tabular machine
learning (ML). In this work, we examine existing tabular benchmarks and find
two common characteristics of industry-grade tabular data that are
underrepresented in the datasets available to the academic community. First,
tabular data often changes over time in real-world deployment scenarios. This
impacts model performance and requires time-based train and test splits for
correct model evaluation. Yet, existing academic tabular datasets often lack
timestamp metadata to enable such evaluation. Second, a considerable portion of
datasets in production settings stem from extensive data acquisition and
feature engineering pipelines. For each specific dataset, this can have a
different impact on the absolute and relative number of predictive,
uninformative, and correlated features, which in turn can affect model
selection. To fill the aforementioned gaps in academic benchmarks, we introduce
TabReD -- a collection of eight industry-grade tabular datasets covering a wide
range of domains from finance to food delivery services. We assess a large
number of tabular ML models in the feature-rich, temporally-evolving data
setting facilitated by TabReD. We demonstrate that evaluation on time-based
data splits leads to different methods ranking, compared to evaluation on
random splits more common in academic benchmarks. Furthermore, on the TabReD
datasets, MLP-like architectures and GBDT show the best results, while more
sophisticated DL models are yet to prove their effectiveness.Summary
AI-Generated Summary