NRGBoost: Árvores Impulsionadas Generativamente Baseadas em Energia
NRGBoost: Energy-Based Generative Boosted Trees
October 4, 2024
Autores: João Bravo
cs.AI
Resumo
Apesar do aumento da predominância do aprendizado profundo em domínios de dados não estruturados, métodos baseados em árvores como Florestas Aleatórias (RF) e Árvores de Decisão Impulsionadas por Gradiente (GBDT) ainda são os principais para lidar com tarefas discriminativas em dados tabulares. Exploramos extensões generativas desses algoritmos populares com foco em modelar explicitamente a densidade dos dados (até uma constante de normalização), permitindo assim outras aplicações além da amostragem. Como nossa principal contribuição, propomos um algoritmo de impulsionamento generativo baseado em energia que é análogo ao impulsionamento de segunda ordem implementado em pacotes populares como XGBoost. Mostramos que, apesar de produzir um modelo generativo capaz de lidar com tarefas de inferência sobre qualquer variável de entrada, nosso algoritmo proposto pode alcançar desempenho discriminativo semelhante ao do GBDT em diversos conjuntos de dados tabulares do mundo real, superando abordagens generativas alternativas. Ao mesmo tempo, demonstramos que ele também é competitivo com modelos baseados em redes neurais para amostragem.
English
Despite the rise to dominance of deep learning in unstructured data domains,
tree-based methods such as Random Forests (RF) and Gradient Boosted Decision
Trees (GBDT) are still the workhorses for handling discriminative tasks on
tabular data. We explore generative extensions of these popular algorithms with
a focus on explicitly modeling the data density (up to a normalization
constant), thus enabling other applications besides sampling. As our main
contribution we propose an energy-based generative boosting algorithm that is
analogous to the second order boosting implemented in popular packages like
XGBoost. We show that, despite producing a generative model capable of handling
inference tasks over any input variable, our proposed algorithm can achieve
similar discriminative performance to GBDT on a number of real world tabular
datasets, outperforming alternative generative approaches. At the same time, we
show that it is also competitive with neural network based models for sampling.Summary
AI-Generated Summary