ChatPaper.aiChatPaper

NRGBoost : Arbres Boostés Génératifs Basés sur l'Énergie

NRGBoost: Energy-Based Generative Boosted Trees

October 4, 2024
Auteurs: João Bravo
cs.AI

Résumé

Malgré la montée en puissance de l'apprentissage profond dans les domaines de données non structurées, les méthodes basées sur les arbres telles que les Forêts Aléatoires (Random Forests - RF) et les Arbres de Décision Boostés par Gradient (Gradient Boosted Decision Trees - GBDT) restent les outils principaux pour traiter les tâches discriminatives sur les données tabulaires. Nous explorons des extensions génératives de ces algorithmes populaires en mettant l'accent sur la modélisation explicite de la densité des données (jusqu'à une constante de normalisation), permettant ainsi d'autres applications en plus de l'échantillonnage. En tant que principale contribution, nous proposons un algorithme de boosting génératif basé sur l'énergie qui est analogue au boosting du second ordre implémenté dans des packages populaires comme XGBoost. Nous montrons que, malgré la production d'un modèle génératif capable de gérer des tâches d'inférence sur n'importe quelle variable d'entrée, notre algorithme proposé peut atteindre des performances discriminatives similaires à GBDT sur plusieurs ensembles de données tabulaires du monde réel, surpassant les approches génératives alternatives. En même temps, nous montrons qu'il est également compétitif avec les modèles basés sur les réseaux neuronaux pour l'échantillonnage.
English
Despite the rise to dominance of deep learning in unstructured data domains, tree-based methods such as Random Forests (RF) and Gradient Boosted Decision Trees (GBDT) are still the workhorses for handling discriminative tasks on tabular data. We explore generative extensions of these popular algorithms with a focus on explicitly modeling the data density (up to a normalization constant), thus enabling other applications besides sampling. As our main contribution we propose an energy-based generative boosting algorithm that is analogous to the second order boosting implemented in popular packages like XGBoost. We show that, despite producing a generative model capable of handling inference tasks over any input variable, our proposed algorithm can achieve similar discriminative performance to GBDT on a number of real world tabular datasets, outperforming alternative generative approaches. At the same time, we show that it is also competitive with neural network based models for sampling.

Summary

AI-Generated Summary

PDF72November 16, 2024