ChatPaper.aiChatPaper

NRGBoost: Árvores Impulsionadas Generativamente Baseadas em Energia

NRGBoost: Energy-Based Generative Boosted Trees

October 4, 2024
Autores: João Bravo
cs.AI

Resumo

Apesar do aumento da predominância do aprendizado profundo em domínios de dados não estruturados, métodos baseados em árvores como Florestas Aleatórias (RF) e Árvores de Decisão Impulsionadas por Gradiente (GBDT) ainda são os principais para lidar com tarefas discriminativas em dados tabulares. Exploramos extensões generativas desses algoritmos populares com foco em modelar explicitamente a densidade dos dados (até uma constante de normalização), permitindo assim outras aplicações além da amostragem. Como nossa principal contribuição, propomos um algoritmo de impulsionamento generativo baseado em energia que é análogo ao impulsionamento de segunda ordem implementado em pacotes populares como XGBoost. Mostramos que, apesar de produzir um modelo generativo capaz de lidar com tarefas de inferência sobre qualquer variável de entrada, nosso algoritmo proposto pode alcançar desempenho discriminativo semelhante ao do GBDT em diversos conjuntos de dados tabulares do mundo real, superando abordagens generativas alternativas. Ao mesmo tempo, demonstramos que ele também é competitivo com modelos baseados em redes neurais para amostragem.
English
Despite the rise to dominance of deep learning in unstructured data domains, tree-based methods such as Random Forests (RF) and Gradient Boosted Decision Trees (GBDT) are still the workhorses for handling discriminative tasks on tabular data. We explore generative extensions of these popular algorithms with a focus on explicitly modeling the data density (up to a normalization constant), thus enabling other applications besides sampling. As our main contribution we propose an energy-based generative boosting algorithm that is analogous to the second order boosting implemented in popular packages like XGBoost. We show that, despite producing a generative model capable of handling inference tasks over any input variable, our proposed algorithm can achieve similar discriminative performance to GBDT on a number of real world tabular datasets, outperforming alternative generative approaches. At the same time, we show that it is also competitive with neural network based models for sampling.

Summary

AI-Generated Summary

PDF72November 16, 2024