Des arbres aux flux et retour : Unifier les arbres de décision et les modèles de diffusion

Résumé

Les arbres de décision et les modèles de diffusion sont des classes de modèles en apparence très différentes, l'une discrète et hiérarchique, l'autre continue et dynamique. Ce travail unifie les deux en établissant une correspondance mathématique précise entre les arbres de décision hiérarchiques et les processus de diffusion dans des régimes limites appropriés. Notre unification révèle un principe d'optimisation commun : l'appariement des scores de trajectoire globale (Global Trajectory Score Matching, GTSM), pour lequel le boosting par gradient (dans une version idéalisée) est asymptotiquement optimal. Nous soulignons la valeur conceptuelle de notre travail à travers deux instantiations pratiques clés : \treeflow, qui atteint une qualité de génération compétitive sur des données tabulaires avec une plus grande fidélité et une accélération computationnelle de 2×, et \dsmtree, une nouvelle méthode de distillation qui transfère la logique décisionnelle hiérarchique dans des réseaux de neurones, égalant les performances du modèle enseignant à moins de 2\% sur de nombreuses benchmarks.

English

Decision trees and diffusion models are ostensibly disparate model classes, one discrete and hierarchical, the other continuous and dynamic. This work unifies the two by establishing a crisp mathematical correspondence between hierarchical decision trees and diffusion processes in appropriate limiting regimes. Our unification reveals a shared optimization principle: Global Trajectory Score Matching (GTSM), for which gradient boosting (in an idealized version) is asymptotically optimal. We underscore the conceptual value of our work through two key practical instantiations: \treeflow, which achieves competitive generation quality on tabular data with higher fidelity and a 2\times computational speedup, and \dsmtree, a novel distillation method that transfers hierarchical decision logic into neural networks, matching teacher performance within 2\% on many benchmarks.

Des arbres aux flux et retour : Unifier les arbres de décision et les modèles de diffusion

Trees to Flows and Back: Unifying Decision Trees and Diffusion Models

Résumé

Support