ChatPaper.aiChatPaper

Struct-Bench: Een Benchmark voor Differentieel Privé Gestructureerde Tekstgeneratie

Struct-Bench: A Benchmark for Differentially Private Structured Text Generation

September 12, 2025
Auteurs: Shuaiqi Wang, Vikas Raunak, Arturs Backurs, Victor Reis, Pei Zhou, Sihao Chen, Longqi Yang, Zinan Lin, Sergey Yekhanin, Giulia Fanti
cs.AI

Samenvatting

Differentieel private (DP) synthetische datageneratie is een veelbelovende techniek voor het benutten van privé-datasets die anders niet beschikbaar kunnen worden gesteld voor modeltraining of andere analyses. Hoewel veel onderzoeksliteratuur zich heeft gericht op het genereren van private ongestructureerde tekst- en beeldgegevens, is gestructureerde data (bijv. tabelvormig) in bedrijfsomgevingen gebruikelijker, vaak inclusief natuurlijke taalvelden of -componenten. Bestaande technieken voor het evalueren van synthetische data (bijv. FID) hebben moeite om de structurele eigenschappen en correlaties van dergelijke datasets vast te leggen. In dit werk stellen we Struct-Bench voor, een raamwerk en benchmark voor het evalueren van synthetische datasets afgeleid van gestructureerde datasets die natuurlijke taalgegevens bevatten. Het Struct-Bench-raamwerk vereist dat gebruikers een representatie van hun datasetstructuur opgeven als een contextvrije grammatica (CFG). Onze benchmark omvat 5 real-world en 2 synthetisch gegenereerde datasets, elk geannoteerd met CFG's. We laten zien dat deze datasets een aanzienlijke uitdaging vormen, zelfs voor state-of-the-art DP-methoden voor synthetische datageneratie. Struct-Bench omvat ook referentie-implementaties van verschillende metrieken en een leaderboard, waardoor onderzoekers een gestandaardiseerd evaluatieplatform krijgen om privacy-beschermende methoden voor synthetische datageneratie te benchmarken en te onderzoeken. Daarnaast presenteren we ook een casestudy die laat zien hoe Struct-Bench kan worden gebruikt om de kwaliteit van synthetische data van Private Evolution (PE) op gestructureerde data te verbeteren. De benchmark en de leaderboard zijn openbaar beschikbaar gemaakt op https://struct-bench.github.io.
English
Differentially private (DP) synthetic data generation is a promising technique for utilizing private datasets that otherwise cannot be exposed for model training or other analytics. While much research literature has focused on generating private unstructured text and image data, in enterprise settings, structured data (e.g., tabular) is more common, often including natural language fields or components. Existing synthetic data evaluation techniques (e.g., FID) struggle to capture the structural properties and correlations of such datasets. In this work, we propose Struct-Bench, a framework and benchmark for evaluating synthetic datasets derived from structured datasets that contain natural language data. The Struct-Bench framework requires users to provide a representation of their dataset structure as a Context-Free Grammar (CFG). Our benchmark comprises 5 real-world and 2 synthetically generated datasets, each annotated with CFGs. We show that these datasets demonstrably present a great challenge even for state-of-the-art DP synthetic data generation methods. Struct-Bench also includes reference implementations of different metrics and a leaderboard, thereby providing researchers a standardized evaluation platform to benchmark and investigate privacy-preserving synthetic data generation methods. Further, we also present a case study showing how to use Struct-Bench to improve the synthetic data quality of Private Evolution (PE) on structured data. The benchmark and the leaderboard have been publicly made available at https://struct-bench.github.io.
PDF03September 19, 2025