Privasis: Synthese des größten "öffentlichen" Privatdatensatzes von Grund auf
Privasis: Synthesizing the Largest "Public" Private Dataset from Scratch
February 3, 2026
papers.authors: Hyunwoo Kim, Niloofar Mireshghallah, Michael Duan, Rui Xin, Shuyue Stella Li, Jaehun Jung, David Acuna, Qi Pang, Hanshen Xiao, G. Edward Suh, Sewoong Oh, Yulia Tsvetkov, Pang Wei Koh, Yejin Choi
cs.AI
papers.abstract
Forschungen mit privatsphäresensitiven Daten waren stets durch Datenknappheit eingeschränkt – ein deutlicher Gegensatz zu anderen Bereichen, die von der Skalierung von Daten profitiert haben. Diese Herausforderung wird zunehmend dringlicher, da modernen KI-Agenten – wie OpenClaw und Gemini Agent – dauerhafter Zugang zu hochsensiblen persönlichen Informationen gewährt wird. Um diesen langjährigen Engpass und die wachsenden Risiken zu bewältigen, stellen wir Privasis (engl. für „Privacy Oasis“, Datenschutz-Oase) vor: den ersten millionenfach skalierten, vollständig synthetischen Datensatz, der komplett neu erstellt wurde – ein umfangreiches Reservoir an Texten mit vielfältigen und differenzierten privaten Informationen – konzipiert, um Forschung in Bereichen zu erweitern und zu beschleunigen, in denen die Verarbeitung sensibler sozialer Daten unvermeidbar ist. Im Vergleich zu bestehenden Datensätzen bietet Privasis mit 1,4 Millionen Datensätzen eine um Größenordnungen größere Skalierung bei hoher Qualität und deutlich größere Diversität über verschiedene Dokumenttypen hinweg, darunter Krankengeschichten, Rechtsdokumente, Finanzunterlagen, Kalender und Textnachrichten mit insgesamt 55,1 Millionen annotierten Attributen wie Ethnizität, Geburtsdatum, Arbeitsplatz usw. Wir nutzen Privasis, um mit unserer Pipeline, die Texte zerlegt und gezielte Bereinigungen anwendet, ein Parallelkorpus für Textbereinigung (Sanitisierung) zu erstellen. Unsere kompakten Bereinigungsmodelle (≤4B), die auf diesem Datensatz trainiert wurden, übertreffen state-of-the-art Großsprachmodelle wie GPT-5 und Qwen-3 235B. Wir planen, Daten, Modelle und Code zu veröffentlichen, um zukünftige Forschung in privatsphäresensitiven Domänen und zu Agenten zu beschleunigen.
English
Research involving privacy-sensitive data has always been constrained by data scarcity, standing in sharp contrast to other areas that have benefited from data scaling. This challenge is becoming increasingly urgent as modern AI agents--such as OpenClaw and Gemini Agent--are granted persistent access to highly sensitive personal information. To tackle this longstanding bottleneck and the rising risks, we present Privasis (i.e., privacy oasis), the first million-scale fully synthetic dataset entirely built from scratch--an expansive reservoir of texts with rich and diverse private information--designed to broaden and accelerate research in areas where processing sensitive social data is inevitable. Compared to existing datasets, Privasis, comprising 1.4 million records, offers orders-of-magnitude larger scale with quality, and far greater diversity across various document types, including medical history, legal documents, financial records, calendars, and text messages with a total of 55.1 million annotated attributes such as ethnicity, date of birth, workplace, etc. We leverage Privasis to construct a parallel corpus for text sanitization with our pipeline that decomposes texts and applies targeted sanitization. Our compact sanitization models (<=4B) trained on this dataset outperform state-of-the-art large language models, such as GPT-5 and Qwen-3 235B. We plan to release data, models, and code to accelerate future research on privacy-sensitive domains and agents.