Struct-Bench: Ein Benchmark für differenziell private strukturierte Textgenerierung
Struct-Bench: A Benchmark for Differentially Private Structured Text Generation
September 12, 2025
papers.authors: Shuaiqi Wang, Vikas Raunak, Arturs Backurs, Victor Reis, Pei Zhou, Sihao Chen, Longqi Yang, Zinan Lin, Sergey Yekhanin, Giulia Fanti
cs.AI
papers.abstract
Die Erzeugung von differenziell privaten (DP) synthetischen Daten ist eine vielversprechende Technik zur Nutzung privater Datensätze, die ansonsten nicht für Modelltraining oder andere Analysen freigegeben werden können. Während sich ein Großteil der Forschungsliteratur auf die Generierung privater unstrukturierter Text- und Bilddaten konzentriert hat, sind in Unternehmensumgebungen strukturierte Daten (z. B. tabellarische) häufiger anzutreffen, die oft natürliche Sprachfelder oder -komponenten enthalten. Bestehende Techniken zur Bewertung synthetischer Daten (z. B. FID) haben Schwierigkeiten, die strukturellen Eigenschaften und Korrelationen solcher Datensätze zu erfassen. In dieser Arbeit schlagen wir Struct-Bench vor, ein Framework und Benchmark zur Bewertung synthetischer Datensätze, die aus strukturierten Datensätzen mit natürlichen Sprachdaten abgeleitet wurden. Das Struct-Bench-Framework erfordert, dass Benutzer eine Repräsentation ihrer Datenstruktur als kontextfreie Grammatik (CFG) bereitstellen. Unser Benchmark umfasst 5 reale und 2 synthetisch generierte Datensätze, die jeweils mit CFGs annotiert sind. Wir zeigen, dass diese Datensätze selbst für modernste DP-Methoden zur Erzeugung synthetischer Daten eine erhebliche Herausforderung darstellen. Struct-Bench beinhaltet auch Referenzimplementierungen verschiedener Metriken und eine Bestenliste, wodurch Forschern eine standardisierte Evaluierungsplattform zur Verfügung gestellt wird, um Methoden zur Erzeugung privatsphäreschützender synthetischer Daten zu bewerten und zu untersuchen. Darüber hinaus präsentieren wir eine Fallstudie, die zeigt, wie Struct-Bench verwendet werden kann, um die Qualität synthetischer Daten von Private Evolution (PE) bei strukturierten Daten zu verbessern. Der Benchmark und die Bestenliste sind öffentlich unter https://struct-bench.github.io verfügbar.
English
Differentially private (DP) synthetic data generation is a promising
technique for utilizing private datasets that otherwise cannot be exposed for
model training or other analytics. While much research literature has focused
on generating private unstructured text and image data, in enterprise settings,
structured data (e.g., tabular) is more common, often including natural
language fields or components. Existing synthetic data evaluation techniques
(e.g., FID) struggle to capture the structural properties and correlations of
such datasets. In this work, we propose Struct-Bench, a framework and benchmark
for evaluating synthetic datasets derived from structured datasets that contain
natural language data. The Struct-Bench framework requires users to provide a
representation of their dataset structure as a Context-Free Grammar (CFG). Our
benchmark comprises 5 real-world and 2 synthetically generated datasets, each
annotated with CFGs. We show that these datasets demonstrably present a great
challenge even for state-of-the-art DP synthetic data generation methods.
Struct-Bench also includes reference implementations of different metrics and a
leaderboard, thereby providing researchers a standardized evaluation platform
to benchmark and investigate privacy-preserving synthetic data generation
methods. Further, we also present a case study showing how to use Struct-Bench
to improve the synthetic data quality of Private Evolution (PE) on structured
data. The benchmark and the leaderboard have been publicly made available at
https://struct-bench.github.io.