ChatPaper.aiChatPaper

Privasis: Síntesis del Mayor Conjunto de Datos "Público" Privado desde Cero

Privasis: Synthesizing the Largest "Public" Private Dataset from Scratch

February 3, 2026
Autores: Hyunwoo Kim, Niloofar Mireshghallah, Michael Duan, Rui Xin, Shuyue Stella Li, Jaehun Jung, David Acuna, Qi Pang, Hanshen Xiao, G. Edward Suh, Sewoong Oh, Yulia Tsvetkov, Pang Wei Koh, Yejin Choi
cs.AI

Resumen

La investigación que involucra datos sensibles en materia de privacidad siempre se ha visto limitada por la escasez de datos, lo que contrasta marcadamente con otras áreas que se han beneficiado del escalado de datos. Este desafío se está volviendo cada vez más urgente a medida que a los agentes de IA modernos—como OpenClaw y Gemini Agent—se les otorga acceso persistente a información personal altamente sensible. Para abordar este cuello de botella de larga data y los riesgos crecientes, presentamos Privasis (es decir, oasis de privacidad), el primer conjunto de datos sintético a gran escala (millones de registros) construido completamente desde cero—un extenso reservorio de textos con información privada rica y diversa—diseñado para ampliar y acelerar la investigación en áreas donde el procesamiento de datos sociales sensibles es inevitable. En comparación con los conjuntos de datos existentes, Privasis, que comprende 1,4 millones de registros, ofrece una escala órdenes de magnitud mayor con calidad, y una diversidad mucho mayor en varios tipos de documentos, incluyendo historiales médicos, documentos legales, registros financieros, calendarios y mensajes de texto, con un total de 55,1 millones de atributos anotados, como etnia, fecha de nacimiento, lugar de trabajo, etc. Utilizamos Privasis para construir un corpus paralelo para el saneamiento de textos con nuestra canalización que descompone los textos y aplica un saneamiento dirigido. Nuestros modelos compactos de saneamiento (<=4B) entrenados en este conjunto de datos superan a los modelos de lenguaje grandes más avanzados, como GPT-5 y Qwen-3 235B. Planeamos publicar los datos, modelos y código para acelerar la investigación futura en dominios y agentes sensibles a la privacidad.
English
Research involving privacy-sensitive data has always been constrained by data scarcity, standing in sharp contrast to other areas that have benefited from data scaling. This challenge is becoming increasingly urgent as modern AI agents--such as OpenClaw and Gemini Agent--are granted persistent access to highly sensitive personal information. To tackle this longstanding bottleneck and the rising risks, we present Privasis (i.e., privacy oasis), the first million-scale fully synthetic dataset entirely built from scratch--an expansive reservoir of texts with rich and diverse private information--designed to broaden and accelerate research in areas where processing sensitive social data is inevitable. Compared to existing datasets, Privasis, comprising 1.4 million records, offers orders-of-magnitude larger scale with quality, and far greater diversity across various document types, including medical history, legal documents, financial records, calendars, and text messages with a total of 55.1 million annotated attributes such as ethnicity, date of birth, workplace, etc. We leverage Privasis to construct a parallel corpus for text sanitization with our pipeline that decomposes texts and applies targeted sanitization. Our compact sanitization models (<=4B) trained on this dataset outperform state-of-the-art large language models, such as GPT-5 and Qwen-3 235B. We plan to release data, models, and code to accelerate future research on privacy-sensitive domains and agents.
PDF11February 5, 2026