NRGBoost: Energiegebaseerde Generatieve Boosted Bomen
NRGBoost: Energy-Based Generative Boosted Trees
October 4, 2024
Auteurs: João Bravo
cs.AI
Samenvatting
Ondanks de opkomst van diepgaand leren in domeinen met ongestructureerde data, blijven op boomstructuren gebaseerde methoden zoals Random Forests (RF) en Gradient Boosted Decision Trees (GBDT) de werkpaarden voor het verwerken van discriminerende taken op tabulaire data. We verkennen generatieve uitbreidingen van deze populaire algoritmes met de nadruk op het expliciet modelleren van de datadichtheid (tot een normalisatieconstante), waardoor andere toepassingen dan monstername mogelijk zijn. Als onze belangrijkste bijdrage stellen we een op energie gebaseerd generatief boostingalgoritme voor dat analoog is aan de boosting van de tweede orde geïmplementeerd in populaire pakketten zoals XGBoost. We tonen aan dat, ondanks het produceren van een generatief model dat in staat is om inferentiemethoden over elke invoer variabele te verwerken, ons voorgestelde algoritme vergelijkbare discriminatieve prestaties kan behalen als GBDT op een aantal echte tabulaire datasets, waarbij alternatieve generatieve benaderingen overtreft. Tegelijkertijd tonen we aan dat het ook concurrerend is met op neurale netwerken gebaseerde modellen voor monstername.
English
Despite the rise to dominance of deep learning in unstructured data domains,
tree-based methods such as Random Forests (RF) and Gradient Boosted Decision
Trees (GBDT) are still the workhorses for handling discriminative tasks on
tabular data. We explore generative extensions of these popular algorithms with
a focus on explicitly modeling the data density (up to a normalization
constant), thus enabling other applications besides sampling. As our main
contribution we propose an energy-based generative boosting algorithm that is
analogous to the second order boosting implemented in popular packages like
XGBoost. We show that, despite producing a generative model capable of handling
inference tasks over any input variable, our proposed algorithm can achieve
similar discriminative performance to GBDT on a number of real world tabular
datasets, outperforming alternative generative approaches. At the same time, we
show that it is also competitive with neural network based models for sampling.Summary
AI-Generated Summary