Struct-Bench: Um Benchmark para Geração de Texto Estruturado com Privacidade Diferencial
Struct-Bench: A Benchmark for Differentially Private Structured Text Generation
September 12, 2025
Autores: Shuaiqi Wang, Vikas Raunak, Arturs Backurs, Victor Reis, Pei Zhou, Sihao Chen, Longqi Yang, Zinan Lin, Sergey Yekhanin, Giulia Fanti
cs.AI
Resumo
A geração de dados sintéticos com privacidade diferencial (DP) é uma técnica promissora para utilizar conjuntos de dados privados que, de outra forma, não poderiam ser expostos para treinamento de modelos ou outras análises. Embora grande parte da literatura de pesquisa tenha se concentrado na geração de dados não estruturados privados, como texto e imagens, em ambientes empresariais, dados estruturados (por exemplo, tabulares) são mais comuns, frequentemente incluindo campos ou componentes de linguagem natural. As técnicas existentes de avaliação de dados sintéticos (por exemplo, FID) têm dificuldade em capturar as propriedades estruturais e as correlações desses conjuntos de dados. Neste trabalho, propomos o Struct-Bench, uma estrutura e benchmark para avaliar conjuntos de dados sintéticos derivados de conjuntos de dados estruturados que contêm dados de linguagem natural. O framework Struct-Bench exige que os usuários forneçam uma representação da estrutura de seu conjunto de dados como uma Gramática Livre de Contexto (CFG). Nosso benchmark compreende 5 conjuntos de dados do mundo real e 2 gerados sinteticamente, cada um anotado com CFGs. Mostramos que esses conjuntos de dados apresentam um grande desafio, mesmo para os métodos mais avançados de geração de dados sintéticos com DP. O Struct-Bench também inclui implementações de referência de diferentes métricas e um leaderboard, fornecendo aos pesquisadores uma plataforma de avaliação padronizada para comparar e investigar métodos de geração de dados sintéticos que preservam a privacidade. Além disso, apresentamos um estudo de caso mostrando como usar o Struct-Bench para melhorar a qualidade dos dados sintéticos do Private Evolution (PE) em dados estruturados. O benchmark e o leaderboard estão disponíveis publicamente em https://struct-bench.github.io.
English
Differentially private (DP) synthetic data generation is a promising
technique for utilizing private datasets that otherwise cannot be exposed for
model training or other analytics. While much research literature has focused
on generating private unstructured text and image data, in enterprise settings,
structured data (e.g., tabular) is more common, often including natural
language fields or components. Existing synthetic data evaluation techniques
(e.g., FID) struggle to capture the structural properties and correlations of
such datasets. In this work, we propose Struct-Bench, a framework and benchmark
for evaluating synthetic datasets derived from structured datasets that contain
natural language data. The Struct-Bench framework requires users to provide a
representation of their dataset structure as a Context-Free Grammar (CFG). Our
benchmark comprises 5 real-world and 2 synthetically generated datasets, each
annotated with CFGs. We show that these datasets demonstrably present a great
challenge even for state-of-the-art DP synthetic data generation methods.
Struct-Bench also includes reference implementations of different metrics and a
leaderboard, thereby providing researchers a standardized evaluation platform
to benchmark and investigate privacy-preserving synthetic data generation
methods. Further, we also present a case study showing how to use Struct-Bench
to improve the synthetic data quality of Private Evolution (PE) on structured
data. The benchmark and the leaderboard have been publicly made available at
https://struct-bench.github.io.