NRGBoost: Alberi Boosted Generativi basati sull'Energia
NRGBoost: Energy-Based Generative Boosted Trees
October 4, 2024
Autori: João Bravo
cs.AI
Abstract
Nonostante l'ascesa alla predominanza del deep learning nei domini dei dati non strutturati, i metodi basati su alberi come Random Forests (RF) e Gradient Boosted Decision Trees (GBDT) rimangono ancora i pilastri per gestire compiti discriminativi su dati tabulari. Esploriamo estensioni generative di questi algoritmi popolari con un focus sulla modellazione esplicita della densità dei dati (fino a una costante di normalizzazione), consentendo così altre applicazioni oltre al campionamento. Come principale contributo proponiamo un algoritmo di boosting generativo basato sull'energia che è analogo al boosting di secondo ordine implementato in pacchetti popolari come XGBoost. Dimostriamo che, nonostante produca un modello generativo in grado di gestire compiti di inferenza su qualsiasi variabile di input, il nostro algoritmo proposto può raggiungere prestazioni discriminative simili a GBDT su diversi dataset tabulari del mondo reale, superando approcci generativi alternativi. Allo stesso tempo, dimostriamo che è anche competitivo con modelli basati su reti neurali per il campionamento.
English
Despite the rise to dominance of deep learning in unstructured data domains,
tree-based methods such as Random Forests (RF) and Gradient Boosted Decision
Trees (GBDT) are still the workhorses for handling discriminative tasks on
tabular data. We explore generative extensions of these popular algorithms with
a focus on explicitly modeling the data density (up to a normalization
constant), thus enabling other applications besides sampling. As our main
contribution we propose an energy-based generative boosting algorithm that is
analogous to the second order boosting implemented in popular packages like
XGBoost. We show that, despite producing a generative model capable of handling
inference tasks over any input variable, our proposed algorithm can achieve
similar discriminative performance to GBDT on a number of real world tabular
datasets, outperforming alternative generative approaches. At the same time, we
show that it is also competitive with neural network based models for sampling.