ChatPaper.aiChatPaper

Génération de données tabulaires en utilisant la diffusion binaire

Tabular Data Generation using Binary Diffusion

September 20, 2024
Auteurs: Vitaliy Kinakh, Slava Voloshynovskiy
cs.AI

Résumé

La génération de données tabulaires synthétiques est cruciale en apprentissage automatique, surtout lorsque les données réelles sont limitées ou sensibles. Les modèles génératifs traditionnels sont souvent confrontés à des défis en raison des caractéristiques uniques des données tabulaires, telles que les types de données mixtes et les distributions variées, et nécessitent un prétraitement complexe ou de grands modèles pré-entraînés. Dans cet article, nous présentons une nouvelle méthode de transformation binaire sans perte qui convertit n'importe quelle donnée tabulaire en représentations binaires de taille fixe, ainsi qu'un nouveau modèle génératif correspondant appelé Diffusion Binaire, spécifiquement conçu pour les données binaires. Diffusion Binaire exploite la simplicité des opérations XOR pour l'ajout et la suppression de bruit, et utilise une perte binaire de cross-entropie pour l'entraînement. Notre approche élimine le besoin de prétraitement approfondi, d'un réglage complexe des paramètres de bruit et d'une préformation sur de grands ensembles de données. Nous évaluons notre modèle sur plusieurs ensembles de données tabulaires de référence populaires, démontrant que la Diffusion Binaire surpasse les modèles existants de pointe sur les ensembles de données Travel, Adult Income et Diabetes tout en étant significativement plus petit en taille.
English
Generating synthetic tabular data is critical in machine learning, especially when real data is limited or sensitive. Traditional generative models often face challenges due to the unique characteristics of tabular data, such as mixed data types and varied distributions, and require complex preprocessing or large pretrained models. In this paper, we introduce a novel, lossless binary transformation method that converts any tabular data into fixed-size binary representations, and a corresponding new generative model called Binary Diffusion, specifically designed for binary data. Binary Diffusion leverages the simplicity of XOR operations for noise addition and removal and employs binary cross-entropy loss for training. Our approach eliminates the need for extensive preprocessing, complex noise parameter tuning, and pretraining on large datasets. We evaluate our model on several popular tabular benchmark datasets, demonstrating that Binary Diffusion outperforms existing state-of-the-art models on Travel, Adult Income, and Diabetes datasets while being significantly smaller in size.

Summary

AI-Generated Summary

PDF43November 16, 2024