ChatPaper.aiChatPaper

Struct-Bench: Un Punto de Referencia para la Generación de Texto Estructurado con Privacidad Diferencial

Struct-Bench: A Benchmark for Differentially Private Structured Text Generation

September 12, 2025
Autores: Shuaiqi Wang, Vikas Raunak, Arturs Backurs, Victor Reis, Pei Zhou, Sihao Chen, Longqi Yang, Zinan Lin, Sergey Yekhanin, Giulia Fanti
cs.AI

Resumen

La generación de datos sintéticos con privacidad diferencial (DP) es una técnica prometedora para utilizar conjuntos de datos privados que, de otro modo, no podrían exponerse para el entrenamiento de modelos u otros análisis. Si bien gran parte de la literatura de investigación se ha centrado en la generación de datos no estructurados privados, como texto e imágenes, en entornos empresariales los datos estructurados (por ejemplo, tabulares) son más comunes y a menudo incluyen campos o componentes de lenguaje natural. Las técnicas existentes de evaluación de datos sintéticos (por ejemplo, FID) tienen dificultades para capturar las propiedades estructurales y las correlaciones de dichos conjuntos de datos. En este trabajo, proponemos Struct-Bench, un marco de trabajo y un punto de referencia para evaluar conjuntos de datos sintéticos derivados de datos estructurados que contienen información en lenguaje natural. El marco de Struct-Bench requiere que los usuarios proporcionen una representación de la estructura de su conjunto de datos como una Gramática Libre de Contexto (CFG). Nuestro punto de referencia incluye 5 conjuntos de datos del mundo real y 2 generados sintéticamente, cada uno anotado con CFGs. Demostramos que estos conjuntos de datos representan un gran desafío incluso para los métodos más avanzados de generación de datos sintéticos con DP. Struct-Bench también incluye implementaciones de referencia de diferentes métricas y una tabla de clasificación, proporcionando así a los investigadores una plataforma de evaluación estandarizada para comparar e investigar métodos de generación de datos sintéticos que preservan la privacidad. Además, presentamos un estudio de caso que muestra cómo utilizar Struct-Bench para mejorar la calidad de los datos sintéticos generados por Private Evolution (PE) en datos estructurados. El punto de referencia y la tabla de clasificación están disponibles públicamente en https://struct-bench.github.io.
English
Differentially private (DP) synthetic data generation is a promising technique for utilizing private datasets that otherwise cannot be exposed for model training or other analytics. While much research literature has focused on generating private unstructured text and image data, in enterprise settings, structured data (e.g., tabular) is more common, often including natural language fields or components. Existing synthetic data evaluation techniques (e.g., FID) struggle to capture the structural properties and correlations of such datasets. In this work, we propose Struct-Bench, a framework and benchmark for evaluating synthetic datasets derived from structured datasets that contain natural language data. The Struct-Bench framework requires users to provide a representation of their dataset structure as a Context-Free Grammar (CFG). Our benchmark comprises 5 real-world and 2 synthetically generated datasets, each annotated with CFGs. We show that these datasets demonstrably present a great challenge even for state-of-the-art DP synthetic data generation methods. Struct-Bench also includes reference implementations of different metrics and a leaderboard, thereby providing researchers a standardized evaluation platform to benchmark and investigate privacy-preserving synthetic data generation methods. Further, we also present a case study showing how to use Struct-Bench to improve the synthetic data quality of Private Evolution (PE) on structured data. The benchmark and the leaderboard have been publicly made available at https://struct-bench.github.io.
PDF02September 17, 2025