Mise à l'échelle des modèles XGBoost basés sur la diffusion et les flux

papers.abstract

Les nouvelles méthodes d'apprentissage automatique pour la génération de données tabulaires sont souvent développées sur de petits jeux de données qui ne correspondent pas à l'échelle requise pour les applications scientifiques. Nous étudions une proposition récente visant à utiliser XGBoost comme approximateur de fonction dans les modèles de diffusion et d'appariement de flux sur des données tabulaires, qui s'est avérée extrêmement gourmande en mémoire, même sur des jeux de données minuscules. Dans ce travail, nous menons une analyse critique de l'implémentation existante d'un point de vue ingénierie, et montrons que ces limitations ne sont pas fondamentales à la méthode ; avec une meilleure implémentation, elle peut être mise à l'échelle sur des jeux de données 370 fois plus grands que ceux utilisés précédemment. Notre implémentation efficace permet également de passer à l'échelle des modèles de tailles bien supérieures, ce qui, comme nous le démontrons, améliore directement les performances sur des tâches de référence. Nous proposons également des améliorations algorithmiques pouvant further bénéficier à l'utilisation des ressources et aux performances du modèle, notamment des arbres à sorties multiples bien adaptés à la modélisation générative. Enfin, nous présentons des résultats sur des jeux de données scientifiques à grande échelle issus de la physique des particules expérimentale dans le cadre du Fast Calorimeter Simulation Challenge. Le code est disponible à l'adresse https://github.com/layer6ai-labs/calo-forest.

English

Novel machine learning methods for tabular data generation are often developed on small datasets which do not match the scale required for scientific applications. We investigate a recent proposal to use XGBoost as the function approximator in diffusion and flow-matching models on tabular data, which proved to be extremely memory intensive, even on tiny datasets. In this work, we conduct a critical analysis of the existing implementation from an engineering perspective, and show that these limitations are not fundamental to the method; with better implementation it can be scaled to datasets 370x larger than previously used. Our efficient implementation also unlocks scaling models to much larger sizes which we show directly leads to improved performance on benchmark tasks. We also propose algorithmic improvements that can further benefit resource usage and model performance, including multi-output trees which are well-suited to generative modeling. Finally, we present results on large-scale scientific datasets derived from experimental particle physics as part of the Fast Calorimeter Simulation Challenge. Code is available at https://github.com/layer6ai-labs/calo-forest.

Mise à l'échelle des modèles XGBoost basés sur la diffusion et les flux

Scaling Up Diffusion and Flow-based XGBoost Models

papers.abstract

Support