ChatPaper.aiChatPaper

Struct-Bench : Un Benchmark pour la Génération de Texte Structuré à Différence Privée

Struct-Bench: A Benchmark for Differentially Private Structured Text Generation

September 12, 2025
papers.authors: Shuaiqi Wang, Vikas Raunak, Arturs Backurs, Victor Reis, Pei Zhou, Sihao Chen, Longqi Yang, Zinan Lin, Sergey Yekhanin, Giulia Fanti
cs.AI

papers.abstract

La génération de données synthétiques à confidentialité différentielle (DP) est une technique prometteuse pour exploiter des ensembles de données privés qui ne pourraient autrement pas être exposés pour l'entraînement de modèles ou d'autres analyses. Alors qu'une grande partie de la littérature de recherche s'est concentrée sur la génération de données non structurées privées, telles que des textes et des images, dans les contextes d'entreprise, les données structurées (par exemple, tabulaires) sont plus courantes, incluant souvent des champs ou composants en langage naturel. Les techniques d'évaluation existantes pour les données synthétiques (par exemple, FID) peinent à capturer les propriétés structurelles et les corrélations de tels ensembles de données. Dans ce travail, nous proposons Struct-Bench, un cadre et un benchmark pour évaluer les ensembles de données synthétiques dérivés de données structurées contenant des données en langage naturel. Le cadre Struct-Bench nécessite que les utilisateurs fournissent une représentation de la structure de leur ensemble de données sous forme de grammaire hors contexte (CFG). Notre benchmark comprend 5 ensembles de données réels et 2 générés synthétiquement, chacun annoté avec des CFG. Nous montrons que ces ensembles de données présentent un défi considérable, même pour les méthodes de génération de données synthétiques DP les plus avancées. Struct-Bench inclut également des implémentations de référence pour différentes métriques et un classement, offrant ainsi aux chercheurs une plateforme d'évaluation standardisée pour comparer et étudier les méthodes de génération de données synthétiques préservant la confidentialité. De plus, nous présentons une étude de cas montrant comment utiliser Struct-Bench pour améliorer la qualité des données synthétiques de Private Evolution (PE) sur des données structurées. Le benchmark et le classement sont disponibles publiquement à l'adresse https://struct-bench.github.io.
English
Differentially private (DP) synthetic data generation is a promising technique for utilizing private datasets that otherwise cannot be exposed for model training or other analytics. While much research literature has focused on generating private unstructured text and image data, in enterprise settings, structured data (e.g., tabular) is more common, often including natural language fields or components. Existing synthetic data evaluation techniques (e.g., FID) struggle to capture the structural properties and correlations of such datasets. In this work, we propose Struct-Bench, a framework and benchmark for evaluating synthetic datasets derived from structured datasets that contain natural language data. The Struct-Bench framework requires users to provide a representation of their dataset structure as a Context-Free Grammar (CFG). Our benchmark comprises 5 real-world and 2 synthetically generated datasets, each annotated with CFGs. We show that these datasets demonstrably present a great challenge even for state-of-the-art DP synthetic data generation methods. Struct-Bench also includes reference implementations of different metrics and a leaderboard, thereby providing researchers a standardized evaluation platform to benchmark and investigate privacy-preserving synthetic data generation methods. Further, we also present a case study showing how to use Struct-Bench to improve the synthetic data quality of Private Evolution (PE) on structured data. The benchmark and the leaderboard have been publicly made available at https://struct-bench.github.io.
PDF03September 17, 2025