ChatPaper.aiChatPaper

NRGBoost: エネルギーベースの生成ブースティング木

NRGBoost: Energy-Based Generative Boosted Trees

October 4, 2024
著者: João Bravo
cs.AI

要旨

深層学習が非構造化データ領域で支配的になったにもかかわらず、ランダムフォレスト(RF)や勾配ブースティング決定木(GBDT)などの木ベースの手法は、表形式データの識別タスクを処理するための主力となっています。私たちは、これらの人気のあるアルゴリズムの生成的拡張を探求し、データ密度(正規化定数まで)を明示的にモデリングすることに焦点を当て、サンプリング以外のアプリケーションも可能としています。主な貢献として、XGBoostなどの一般的なパッケージで実装されている2次ブースティングに類似したエネルギーベースの生成ブースティングアルゴリズムを提案します。提案されたアルゴリズムは、任意の入力変数に対する推論タスクを処理できる生成モデルを生成するにもかかわらず、実際の表形式データセットのいくつかで、GBDTに類似した識別性能を達成し、他の生成的アプローチを上回ることを示します。同時に、サンプリングにおいては、ニューラルネットワークベースのモデルとも競争力があることを示します。
English
Despite the rise to dominance of deep learning in unstructured data domains, tree-based methods such as Random Forests (RF) and Gradient Boosted Decision Trees (GBDT) are still the workhorses for handling discriminative tasks on tabular data. We explore generative extensions of these popular algorithms with a focus on explicitly modeling the data density (up to a normalization constant), thus enabling other applications besides sampling. As our main contribution we propose an energy-based generative boosting algorithm that is analogous to the second order boosting implemented in popular packages like XGBoost. We show that, despite producing a generative model capable of handling inference tasks over any input variable, our proposed algorithm can achieve similar discriminative performance to GBDT on a number of real world tabular datasets, outperforming alternative generative approaches. At the same time, we show that it is also competitive with neural network based models for sampling.

Summary

AI-Generated Summary

PDF72November 16, 2024