TabReD: Ein Benchmark für tabellenbasiertes maschinelles Lernen in freier Wildbahn

Zusammenfassung

Benchmarks, die eng mit den Szenarien der nachgelagerten Anwendungen übereinstimmen, sind entscheidend für die reibungslose Übernahme neuer Forschungsergebnisse im Bereich des tabellarischen maschinellen Lernens (ML). In dieser Arbeit untersuchen wir bestehende tabellarische Benchmarks und stellen zwei gemeinsame Merkmale von tabellarischen Industriedaten fest, die in den für die akademische Gemeinschaft verfügbaren Datensätzen unterrepräsentiert sind. Erstens ändern sich tabellarische Daten in Echtwelt-Einsatzszenarien im Laufe der Zeit häufig. Dies wirkt sich auf die Modellleistung aus und erfordert zeitbasierte Trainings- und Testaufteilungen für eine korrekte Modellbewertung. Dennoch fehlen in bestehenden akademischen tabellarischen Datensätzen oft Zeitstempel-Metadaten, um eine solche Bewertung zu ermöglichen. Zweitens stammen in Produktionsumgebungen ein erheblicher Teil der Datensätze aus umfangreichen Datenerfassungs- und Merkmalsextraktionspipelines. Für jeden spezifischen Datensatz kann dies unterschiedliche Auswirkungen auf die absoluten und relativen Anzahlen von prädiktiven, nicht informativen und korrelierten Merkmalen haben, was wiederum die Modellauswahl beeinflussen kann. Um die genannten Lücken in akademischen Benchmarks zu schließen, stellen wir TabReD vor - eine Sammlung von acht tabellarischen Industriedatensätzen, die eine Vielzahl von Bereichen von Finanzen bis hin zu Lebensmittellieferdiensten abdecken. Wir bewerten eine große Anzahl von tabellarischen ML-Modellen in der funktionsreichen, zeitlich sich entwickelnden Datenumgebung, die durch TabReD ermöglicht wird. Wir zeigen, dass die Bewertung anhand von zeitbasierten Datenaufteilungen zu unterschiedlichen Methodenrangfolgen führt, im Vergleich zur Bewertung anhand von zufälligen Aufteilungen, die in akademischen Benchmarks häufiger sind. Darüber hinaus erzielen auf den TabReD-Datensätzen MLP-ähnliche Architekturen und GBDT die besten Ergebnisse, während sich herausforderndere DL-Modelle noch nicht in ihrer Wirksamkeit bewährt haben.

English

Benchmarks that closely reflect downstream application scenarios are essential for the streamlined adoption of new research in tabular machine learning (ML). In this work, we examine existing tabular benchmarks and find two common characteristics of industry-grade tabular data that are underrepresented in the datasets available to the academic community. First, tabular data often changes over time in real-world deployment scenarios. This impacts model performance and requires time-based train and test splits for correct model evaluation. Yet, existing academic tabular datasets often lack timestamp metadata to enable such evaluation. Second, a considerable portion of datasets in production settings stem from extensive data acquisition and feature engineering pipelines. For each specific dataset, this can have a different impact on the absolute and relative number of predictive, uninformative, and correlated features, which in turn can affect model selection. To fill the aforementioned gaps in academic benchmarks, we introduce TabReD -- a collection of eight industry-grade tabular datasets covering a wide range of domains from finance to food delivery services. We assess a large number of tabular ML models in the feature-rich, temporally-evolving data setting facilitated by TabReD. We demonstrate that evaluation on time-based data splits leads to different methods ranking, compared to evaluation on random splits more common in academic benchmarks. Furthermore, on the TabReD datasets, MLP-like architectures and GBDT show the best results, while more sophisticated DL models are yet to prove their effectiveness.

TabReD: Ein Benchmark für tabellenbasiertes maschinelles Lernen in freier Wildbahn

TabReD: A Benchmark of Tabular Machine Learning in-the-Wild

Zusammenfassung

Support