TabReD: Een Benchmark voor Tabelvormige Machine Learning in de Praktijk
TabReD: A Benchmark of Tabular Machine Learning in-the-Wild
June 27, 2024
Auteurs: Ivan Rubachev, Nikolay Kartashev, Yury Gorishniy, Artem Babenko
cs.AI
Samenvatting
Benchmarks die nauw aansluiten bij downstream toepassingsscenario's zijn essentieel voor de soepele adoptie van nieuw onderzoek in tabelvormige machine learning (ML). In dit werk onderzoeken we bestaande tabelvormige benchmarks en identificeren we twee veelvoorkomende kenmerken van industriële tabelgegevens die ondervertegenwoordigd zijn in de datasets die beschikbaar zijn voor de academische gemeenschap. Ten eerste veranderen tabelgegevens vaak in de loop van de tijd in real-world implementatiescenario's. Dit heeft invloed op de modelprestaties en vereist tijdgebaseerde train- en testsplitsingen voor een correcte model evaluatie. Toch ontbreekt het bestaande academische tabeldatasets vaak aan timestamp metadata om dergelijke evaluatie mogelijk te maken. Ten tweede komt een aanzienlijk deel van de datasets in productieomgevingen voort uit uitgebreide data-acquisitie- en feature engineering-pijplijnen. Voor elke specifieke dataset kan dit een verschillende impact hebben op het absolute en relatieve aantal voorspellende, niet-informatieve en gecorreleerde features, wat op zijn beurt de modelselectie kan beïnvloeden. Om de bovengenoemde hiaten in academische benchmarks op te vullen, introduceren we TabReD – een verzameling van acht industriële tabeldatasets die een breed scala aan domeinen bestrijken, van financiën tot voedselbezorgdiensten. We evalueren een groot aantal tabelvormige ML-modellen in de feature-rijke, temporeel evoluerende data-omgeving die door TabReD wordt gefaciliteerd. We tonen aan dat evaluatie op tijdgebaseerde datasplitsingen leidt tot een andere rangschikking van methoden, vergeleken met evaluatie op willekeurige splitsingen die gebruikelijker zijn in academische benchmarks. Bovendien laten MLP-achtige architecturen en GBDT op de TabReD-datasets de beste resultaten zien, terwijl meer geavanceerde DL-modellen hun effectiviteit nog moeten bewijzen.
English
Benchmarks that closely reflect downstream application scenarios are
essential for the streamlined adoption of new research in tabular machine
learning (ML). In this work, we examine existing tabular benchmarks and find
two common characteristics of industry-grade tabular data that are
underrepresented in the datasets available to the academic community. First,
tabular data often changes over time in real-world deployment scenarios. This
impacts model performance and requires time-based train and test splits for
correct model evaluation. Yet, existing academic tabular datasets often lack
timestamp metadata to enable such evaluation. Second, a considerable portion of
datasets in production settings stem from extensive data acquisition and
feature engineering pipelines. For each specific dataset, this can have a
different impact on the absolute and relative number of predictive,
uninformative, and correlated features, which in turn can affect model
selection. To fill the aforementioned gaps in academic benchmarks, we introduce
TabReD -- a collection of eight industry-grade tabular datasets covering a wide
range of domains from finance to food delivery services. We assess a large
number of tabular ML models in the feature-rich, temporally-evolving data
setting facilitated by TabReD. We demonstrate that evaluation on time-based
data splits leads to different methods ranking, compared to evaluation on
random splits more common in academic benchmarks. Furthermore, on the TabReD
datasets, MLP-like architectures and GBDT show the best results, while more
sophisticated DL models are yet to prove their effectiveness.