Struct-Bench: Um Benchmark para Geração de Texto Estruturado com Privacidade Diferencial

Resumo

A geração de dados sintéticos com privacidade diferencial (DP) é uma técnica promissora para utilizar conjuntos de dados privados que, de outra forma, não poderiam ser expostos para treinamento de modelos ou outras análises. Embora grande parte da literatura de pesquisa tenha se concentrado na geração de dados não estruturados privados, como texto e imagens, em ambientes empresariais, dados estruturados (por exemplo, tabulares) são mais comuns, frequentemente incluindo campos ou componentes de linguagem natural. As técnicas existentes de avaliação de dados sintéticos (por exemplo, FID) têm dificuldade em capturar as propriedades estruturais e as correlações desses conjuntos de dados. Neste trabalho, propomos o Struct-Bench, uma estrutura e benchmark para avaliar conjuntos de dados sintéticos derivados de conjuntos de dados estruturados que contêm dados de linguagem natural. O framework Struct-Bench exige que os usuários forneçam uma representação da estrutura de seu conjunto de dados como uma Gramática Livre de Contexto (CFG). Nosso benchmark compreende 5 conjuntos de dados do mundo real e 2 gerados sinteticamente, cada um anotado com CFGs. Mostramos que esses conjuntos de dados apresentam um grande desafio, mesmo para os métodos mais avançados de geração de dados sintéticos com DP. O Struct-Bench também inclui implementações de referência de diferentes métricas e um leaderboard, fornecendo aos pesquisadores uma plataforma de avaliação padronizada para comparar e investigar métodos de geração de dados sintéticos que preservam a privacidade. Além disso, apresentamos um estudo de caso mostrando como usar o Struct-Bench para melhorar a qualidade dos dados sintéticos do Private Evolution (PE) em dados estruturados. O benchmark e o leaderboard estão disponíveis publicamente em https://struct-bench.github.io.

English

Differentially private (DP) synthetic data generation is a promising technique for utilizing private datasets that otherwise cannot be exposed for model training or other analytics. While much research literature has focused on generating private unstructured text and image data, in enterprise settings, structured data (e.g., tabular) is more common, often including natural language fields or components. Existing synthetic data evaluation techniques (e.g., FID) struggle to capture the structural properties and correlations of such datasets. In this work, we propose Struct-Bench, a framework and benchmark for evaluating synthetic datasets derived from structured datasets that contain natural language data. The Struct-Bench framework requires users to provide a representation of their dataset structure as a Context-Free Grammar (CFG). Our benchmark comprises 5 real-world and 2 synthetically generated datasets, each annotated with CFGs. We show that these datasets demonstrably present a great challenge even for state-of-the-art DP synthetic data generation methods. Struct-Bench also includes reference implementations of different metrics and a leaderboard, thereby providing researchers a standardized evaluation platform to benchmark and investigate privacy-preserving synthetic data generation methods. Further, we also present a case study showing how to use Struct-Bench to improve the synthetic data quality of Private Evolution (PE) on structured data. The benchmark and the leaderboard have been publicly made available at https://struct-bench.github.io.

Struct-Bench: Um Benchmark para Geração de Texto Estruturado com Privacidade Diferencial

Struct-Bench: A Benchmark for Differentially Private Structured Text Generation

Resumo

Support