ChatPaper.aiChatPaper

확산 및 흐름 기반 XGBoost 모델의 규모 확장

Scaling Up Diffusion and Flow-based XGBoost Models

August 28, 2024
저자: Jesse C. Cresswell, Taewoo Kim
cs.AI

초록

표 형식 데이터 생성을 위한 새로운 기계 학습 방법들은 종종 과학적 응용에 필요한 규모에 미치지 못하는 소규모 데이터셋에서 개발됩니다. 우리는 최근 제안된 XGBoost를 확산(diffusion) 및 플로우 매칭(flow-matching) 모델의 함수 근사기로 사용하는 방법을 조사했는데, 이 방법은 아주 작은 데이터셋에서도 매우 높은 메모리 사용량을 보였습니다. 본 연구에서는 기존 구현을 엔지니어링 관점에서 비판적으로 분석하고, 이러한 한계가 방법론 자체의 근본적인 문제가 아님을 보여줍니다. 더 나은 구현을 통해 이전에 사용된 데이터셋보다 370배 더 큰 규모로 확장할 수 있음을 입증했습니다. 우리의 효율적인 구현은 또한 모델을 훨씬 더 큰 규모로 확장할 수 있게 해주며, 이는 벤치마크 작업에서 성능 향상으로 직접 이어짐을 보여줍니다. 또한, 생성 모델링에 적합한 다중 출력 트리(multi-output trees)를 포함하여 자원 사용과 모델 성능을 더욱 개선할 수 있는 알고리즘적 개선안을 제안합니다. 마지막으로, 실험 입자 물리학에서 파생된 대규모 과학 데이터셋에 대한 결과를 Fast Calorimeter Simulation Challenge의 일환으로 제시합니다. 코드는 https://github.com/layer6ai-labs/calo-forest에서 확인할 수 있습니다.
English
Novel machine learning methods for tabular data generation are often developed on small datasets which do not match the scale required for scientific applications. We investigate a recent proposal to use XGBoost as the function approximator in diffusion and flow-matching models on tabular data, which proved to be extremely memory intensive, even on tiny datasets. In this work, we conduct a critical analysis of the existing implementation from an engineering perspective, and show that these limitations are not fundamental to the method; with better implementation it can be scaled to datasets 370x larger than previously used. Our efficient implementation also unlocks scaling models to much larger sizes which we show directly leads to improved performance on benchmark tasks. We also propose algorithmic improvements that can further benefit resource usage and model performance, including multi-output trees which are well-suited to generative modeling. Finally, we present results on large-scale scientific datasets derived from experimental particle physics as part of the Fast Calorimeter Simulation Challenge. Code is available at https://github.com/layer6ai-labs/calo-forest.
PDF102November 14, 2024