NRGBoost: Энергетические генеративные усиленные деревья
NRGBoost: Energy-Based Generative Boosted Trees
October 4, 2024
Авторы: João Bravo
cs.AI
Аннотация
Несмотря на доминирование глубокого обучения в областях неструктурированных данных, методы на основе деревьев, такие как Случайный Лес (Random Forests, RF) и Градиентный Бустинг Деревьев Решений (Gradient Boosted Decision Trees, GBDT), по-прежнему являются основными инструментами для решения дискриминационных задач на табличных данных. Мы исследуем генеративные расширения этих популярных алгоритмов с акцентом на явное моделирование плотности данных (до нормализационной константы), что позволяет использовать их в других приложениях помимо сэмплирования. В качестве нашего основного вклада мы предлагаем алгоритм генеративного бустинга на основе энергии, аналогичный бустингу второго порядка, реализованному в популярных пакетах, таких как XGBoost. Мы показываем, что, несмотря на создание генеративной модели, способной обрабатывать задачи вывода по любой входной переменной, наш предложенный алгоритм может достичь сходной дискриминационной производительности с GBDT на ряде реальных табличных наборов данных, превосходя альтернативные генеративные подходы. В то же время мы показываем, что он также конкурентоспособен с моделями на основе нейронных сетей для сэмплирования.
English
Despite the rise to dominance of deep learning in unstructured data domains,
tree-based methods such as Random Forests (RF) and Gradient Boosted Decision
Trees (GBDT) are still the workhorses for handling discriminative tasks on
tabular data. We explore generative extensions of these popular algorithms with
a focus on explicitly modeling the data density (up to a normalization
constant), thus enabling other applications besides sampling. As our main
contribution we propose an energy-based generative boosting algorithm that is
analogous to the second order boosting implemented in popular packages like
XGBoost. We show that, despite producing a generative model capable of handling
inference tasks over any input variable, our proposed algorithm can achieve
similar discriminative performance to GBDT on a number of real world tabular
datasets, outperforming alternative generative approaches. At the same time, we
show that it is also competitive with neural network based models for sampling.