Opschalen van op diffusie en stroming gebaseerde XGBoost-modellen

Samenvatting

Nieuwe machine learning-methoden voor het genereren van tabulaire gegevens worden vaak ontwikkeld op kleine datasets die niet overeenkomen met de schaal die nodig is voor wetenschappelijke toepassingen. Wij onderzoeken een recent voorstel om XGBoost te gebruiken als de functiebenadering in diffusie- en flow-matchingmodellen voor tabulaire gegevens, wat extreem geheugenintensief bleek te zijn, zelfs op minuscule datasets. In dit werk voeren we een kritische analyse uit van de bestaande implementatie vanuit een technisch perspectief en tonen we aan dat deze beperkingen niet fundamenteel zijn voor de methode; met een betere implementatie kan deze worden opgeschaald naar datasets die 370 keer groter zijn dan voorheen gebruikt. Onze efficiënte implementatie maakt het ook mogelijk modellen op te schalen naar veel grotere omvang, wat direct leidt tot verbeterde prestaties op benchmarktaken, zoals we aantonen. We stellen ook algoritmische verbeteringen voor die het resourcegebruik en de modelprestaties verder kunnen bevorderen, waaronder multi-output bomen die bijzonder geschikt zijn voor generatief modelleren. Tot slot presenteren we resultaten op grootschalige wetenschappelijke datasets afkomstig uit experimentele deeltjesfysica als onderdeel van de Fast Calorimeter Simulation Challenge. Code is beschikbaar op https://github.com/layer6ai-labs/calo-forest.

English

Novel machine learning methods for tabular data generation are often developed on small datasets which do not match the scale required for scientific applications. We investigate a recent proposal to use XGBoost as the function approximator in diffusion and flow-matching models on tabular data, which proved to be extremely memory intensive, even on tiny datasets. In this work, we conduct a critical analysis of the existing implementation from an engineering perspective, and show that these limitations are not fundamental to the method; with better implementation it can be scaled to datasets 370x larger than previously used. Our efficient implementation also unlocks scaling models to much larger sizes which we show directly leads to improved performance on benchmark tasks. We also propose algorithmic improvements that can further benefit resource usage and model performance, including multi-output trees which are well-suited to generative modeling. Finally, we present results on large-scale scientific datasets derived from experimental particle physics as part of the Fast Calorimeter Simulation Challenge. Code is available at https://github.com/layer6ai-labs/calo-forest.

Opschalen van op diffusie en stroming gebaseerde XGBoost-modellen

Scaling Up Diffusion and Flow-based XGBoost Models

Samenvatting

Support