Struct-Bench: Ein Benchmark für differenziell private strukturierte Textgenerierung

papers.abstract

Die Erzeugung von differenziell privaten (DP) synthetischen Daten ist eine vielversprechende Technik zur Nutzung privater Datensätze, die ansonsten nicht für Modelltraining oder andere Analysen freigegeben werden können. Während sich ein Großteil der Forschungsliteratur auf die Generierung privater unstrukturierter Text- und Bilddaten konzentriert hat, sind in Unternehmensumgebungen strukturierte Daten (z. B. tabellarische) häufiger anzutreffen, die oft natürliche Sprachfelder oder -komponenten enthalten. Bestehende Techniken zur Bewertung synthetischer Daten (z. B. FID) haben Schwierigkeiten, die strukturellen Eigenschaften und Korrelationen solcher Datensätze zu erfassen. In dieser Arbeit schlagen wir Struct-Bench vor, ein Framework und Benchmark zur Bewertung synthetischer Datensätze, die aus strukturierten Datensätzen mit natürlichen Sprachdaten abgeleitet wurden. Das Struct-Bench-Framework erfordert, dass Benutzer eine Repräsentation ihrer Datenstruktur als kontextfreie Grammatik (CFG) bereitstellen. Unser Benchmark umfasst 5 reale und 2 synthetisch generierte Datensätze, die jeweils mit CFGs annotiert sind. Wir zeigen, dass diese Datensätze selbst für modernste DP-Methoden zur Erzeugung synthetischer Daten eine erhebliche Herausforderung darstellen. Struct-Bench beinhaltet auch Referenzimplementierungen verschiedener Metriken und eine Bestenliste, wodurch Forschern eine standardisierte Evaluierungsplattform zur Verfügung gestellt wird, um Methoden zur Erzeugung privatsphäreschützender synthetischer Daten zu bewerten und zu untersuchen. Darüber hinaus präsentieren wir eine Fallstudie, die zeigt, wie Struct-Bench verwendet werden kann, um die Qualität synthetischer Daten von Private Evolution (PE) bei strukturierten Daten zu verbessern. Der Benchmark und die Bestenliste sind öffentlich unter https://struct-bench.github.io verfügbar.

English

Differentially private (DP) synthetic data generation is a promising technique for utilizing private datasets that otherwise cannot be exposed for model training or other analytics. While much research literature has focused on generating private unstructured text and image data, in enterprise settings, structured data (e.g., tabular) is more common, often including natural language fields or components. Existing synthetic data evaluation techniques (e.g., FID) struggle to capture the structural properties and correlations of such datasets. In this work, we propose Struct-Bench, a framework and benchmark for evaluating synthetic datasets derived from structured datasets that contain natural language data. The Struct-Bench framework requires users to provide a representation of their dataset structure as a Context-Free Grammar (CFG). Our benchmark comprises 5 real-world and 2 synthetically generated datasets, each annotated with CFGs. We show that these datasets demonstrably present a great challenge even for state-of-the-art DP synthetic data generation methods. Struct-Bench also includes reference implementations of different metrics and a leaderboard, thereby providing researchers a standardized evaluation platform to benchmark and investigate privacy-preserving synthetic data generation methods. Further, we also present a case study showing how to use Struct-Bench to improve the synthetic data quality of Private Evolution (PE) on structured data. The benchmark and the leaderboard have been publicly made available at https://struct-bench.github.io.

Struct-Bench: Ein Benchmark für differenziell private strukturierte Textgenerierung

Struct-Bench: A Benchmark for Differentially Private Structured Text Generation

papers.abstract

Support