Struct-Bench: Un Benchmark per la Generazione Differenzialmente Privata di Testi Strutturati
Struct-Bench: A Benchmark for Differentially Private Structured Text Generation
September 12, 2025
Autori: Shuaiqi Wang, Vikas Raunak, Arturs Backurs, Victor Reis, Pei Zhou, Sihao Chen, Longqi Yang, Zinan Lin, Sergey Yekhanin, Giulia Fanti
cs.AI
Abstract
La generazione di dati sintetici con privacy differenziale (DP) è una tecnica promettente per utilizzare dataset privati che altrimenti non potrebbero essere esposti per l'addestramento di modelli o altre analisi. Mentre gran parte della letteratura di ricerca si è concentrata sulla generazione di dati non strutturati come testo e immagini, negli ambienti aziendali i dati strutturati (ad esempio, tabellari) sono più comuni e spesso includono campi o componenti in linguaggio naturale. Le tecniche esistenti per la valutazione dei dati sintetici (ad esempio, FID) faticano a catturare le proprietà strutturali e le correlazioni di tali dataset. In questo lavoro, proponiamo Struct-Bench, un framework e un benchmark per valutare dataset sintetici derivati da dataset strutturati che contengono dati in linguaggio naturale. Il framework Struct-Bench richiede agli utenti di fornire una rappresentazione della struttura del loro dataset come grammatica libera dal contesto (CFG). Il nostro benchmark comprende 5 dataset reali e 2 generati sinteticamente, ciascuno annotato con CFG. Dimostriamo che questi dataset rappresentano una sfida significativa anche per i metodi più avanzati di generazione di dati sintetici DP. Struct-Bench include anche implementazioni di riferimento di diverse metriche e una classifica, fornendo così ai ricercatori una piattaforma di valutazione standardizzata per confrontare e investigare metodi di generazione di dati sintetici che preservano la privacy. Inoltre, presentiamo uno studio di caso che mostra come utilizzare Struct-Bench per migliorare la qualità dei dati sintetici generati da Private Evolution (PE) su dati strutturati. Il benchmark e la classifica sono stati resi pubblicamente disponibili all'indirizzo https://struct-bench.github.io.
English
Differentially private (DP) synthetic data generation is a promising
technique for utilizing private datasets that otherwise cannot be exposed for
model training or other analytics. While much research literature has focused
on generating private unstructured text and image data, in enterprise settings,
structured data (e.g., tabular) is more common, often including natural
language fields or components. Existing synthetic data evaluation techniques
(e.g., FID) struggle to capture the structural properties and correlations of
such datasets. In this work, we propose Struct-Bench, a framework and benchmark
for evaluating synthetic datasets derived from structured datasets that contain
natural language data. The Struct-Bench framework requires users to provide a
representation of their dataset structure as a Context-Free Grammar (CFG). Our
benchmark comprises 5 real-world and 2 synthetically generated datasets, each
annotated with CFGs. We show that these datasets demonstrably present a great
challenge even for state-of-the-art DP synthetic data generation methods.
Struct-Bench also includes reference implementations of different metrics and a
leaderboard, thereby providing researchers a standardized evaluation platform
to benchmark and investigate privacy-preserving synthetic data generation
methods. Further, we also present a case study showing how to use Struct-Bench
to improve the synthetic data quality of Private Evolution (PE) on structured
data. The benchmark and the leaderboard have been publicly made available at
https://struct-bench.github.io.