ChatPaper.aiChatPaper

NRGBoost: Energiebasierte generative Boosted Trees

NRGBoost: Energy-Based Generative Boosted Trees

October 4, 2024
Autoren: João Bravo
cs.AI

Zusammenfassung

Trotz des Aufstiegs von Deep Learning in unstrukturierten Datenbereichen sind baumbasierte Methoden wie Random Forests (RF) und Gradient Boosted Decision Trees (GBDT) immer noch die Arbeitstiere für die Bewältigung diskriminativer Aufgaben in tabellarischen Daten. Wir untersuchen generative Erweiterungen dieser beliebten Algorithmen mit dem Schwerpunkt auf der expliziten Modellierung der Datenverteilung (bis auf eine Normalisierungskonstante), was andere Anwendungen neben der Stichprobenahme ermöglicht. Als unser Hauptbeitrag schlagen wir einen energiebasierten generativen Boosting-Algorithmus vor, der analog zum Boosting zweiter Ordnung ist, wie es in beliebten Paketen wie XGBoost implementiert ist. Wir zeigen, dass unser vorgeschlagener Algorithmus trotz der Erzeugung eines generativen Modells, das in der Lage ist, Inferenzaufgaben über jede Eingangsvariable zu bewältigen, eine ähnliche diskriminative Leistung wie GBDT auf einer Reihe von realen tabellarischen Datensätzen erzielen kann und alternative generative Ansätze übertrifft. Gleichzeitig zeigen wir, dass er auch im Vergleich zu modellbasierten neuronalen Netzwerken für die Stichprobenahme wettbewerbsfähig ist.
English
Despite the rise to dominance of deep learning in unstructured data domains, tree-based methods such as Random Forests (RF) and Gradient Boosted Decision Trees (GBDT) are still the workhorses for handling discriminative tasks on tabular data. We explore generative extensions of these popular algorithms with a focus on explicitly modeling the data density (up to a normalization constant), thus enabling other applications besides sampling. As our main contribution we propose an energy-based generative boosting algorithm that is analogous to the second order boosting implemented in popular packages like XGBoost. We show that, despite producing a generative model capable of handling inference tasks over any input variable, our proposed algorithm can achieve similar discriminative performance to GBDT on a number of real world tabular datasets, outperforming alternative generative approaches. At the same time, we show that it is also competitive with neural network based models for sampling.

Summary

AI-Generated Summary

PDF72November 16, 2024