ChatPaper.aiChatPaper

NRGBoost: Árboles Impulsados Generativamente Basados en Energía

NRGBoost: Energy-Based Generative Boosted Trees

October 4, 2024
Autores: João Bravo
cs.AI

Resumen

A pesar del aumento en la dominancia del aprendizaje profundo en dominios de datos no estructurados, los métodos basados en árboles como Bosques Aleatorios (RF) y Árboles de Decisión Potenciados por Gradiente (GBDT) siguen siendo los caballos de batalla para manejar tareas discriminatorias en datos tabulares. Exploramos extensiones generativas de estos algoritmos populares con un enfoque en modelar explícitamente la densidad de datos (hasta una constante de normalización), lo que permite otras aplicaciones además del muestreo. Como nuestra principal contribución, proponemos un algoritmo de potenciación generativa basado en energía que es análogo al potenciador de segundo orden implementado en paquetes populares como XGBoost. Mostramos que, a pesar de producir un modelo generativo capaz de manejar tareas de inferencia sobre cualquier variable de entrada, nuestro algoritmo propuesto puede lograr un rendimiento discriminatorio similar al de GBDT en varios conjuntos de datos tabulares del mundo real, superando en rendimiento a enfoques generativos alternativos. Al mismo tiempo, demostramos que también es competitivo con modelos basados en redes neuronales para el muestreo.
English
Despite the rise to dominance of deep learning in unstructured data domains, tree-based methods such as Random Forests (RF) and Gradient Boosted Decision Trees (GBDT) are still the workhorses for handling discriminative tasks on tabular data. We explore generative extensions of these popular algorithms with a focus on explicitly modeling the data density (up to a normalization constant), thus enabling other applications besides sampling. As our main contribution we propose an energy-based generative boosting algorithm that is analogous to the second order boosting implemented in popular packages like XGBoost. We show that, despite producing a generative model capable of handling inference tasks over any input variable, our proposed algorithm can achieve similar discriminative performance to GBDT on a number of real world tabular datasets, outperforming alternative generative approaches. At the same time, we show that it is also competitive with neural network based models for sampling.

Summary

AI-Generated Summary

PDF72November 16, 2024