ChatPaper.aiChatPaper

Privasis: Synthesering van de grootste 'publieke' privédataset vanaf nul

Privasis: Synthesizing the Largest "Public" Private Dataset from Scratch

February 3, 2026
Auteurs: Hyunwoo Kim, Niloofar Mireshghallah, Michael Duan, Rui Xin, Shuyue Stella Li, Jaehun Jung, David Acuna, Qi Pang, Hanshen Xiao, G. Edward Suh, Sewoong Oh, Yulia Tsvetkov, Pang Wei Koh, Yejin Choi
cs.AI

Samenvatting

Onderzoek met privacygevoelige gegevens wordt traditioneel beperkt door dataschaarste, wat een scherp contrast vormt met andere domeinen die hebben geprofiteerd van data-schaalvergroting. Deze uitdaging wordt steeds urgenter nu moderne AI-agenten – zoals OpenClaw en Gemini Agent – permanente toegang krijgen tot zeer gevoelige persoonlijke informatie. Om dit langdurige knelpunt en de groeiende risico's aan te pakken, presenteren wij Privasis (een samentrekking van 'privacy oasis' of privacy-oase), de eerste miljoen-schaal volledig synthetische dataset die volledig vanaf nul is opgebouwd – een uitgebreid reservoir van teksten met rijke en gevarieerde privé-informatie – ontworpen om onderzoek te verbreden en te versnellen in domeinen waar de verwerking van gevoelige sociale data onvermijdelijk is. In vergelijking met bestaande datasets biedt Privasis, bestaande uit 1,4 miljoen records, een orde-grootte grotere schaal met kwaliteit, en een aanzienlijk grotere diversiteit aan documenttypen, waaronder medische geschiedenis, juridische documenten, financiële dossiers, agenda's en tekstberichten, met in totaal 55,1 miljoen geannoteerde attributen zoals etniciteit, geboortedatum, werkplek, enz. Wij benutten Privasis om een parallel corpus te construeren voor tekstsanering met onze pijplijn die teksten decomposeert en gerichte sanering toepast. Onze compacte saneringsmodellen (<=4B) die op deze dataset zijn getraind, overtreffen state-of-the-art large language models, zoals GPT-5 en Qwen-3 235B. Wij zijn van plan data, modellen en code vrij te geven om toekomstig onderzoek op privacygevoelige domeinen en voor agents te versnellen.
English
Research involving privacy-sensitive data has always been constrained by data scarcity, standing in sharp contrast to other areas that have benefited from data scaling. This challenge is becoming increasingly urgent as modern AI agents--such as OpenClaw and Gemini Agent--are granted persistent access to highly sensitive personal information. To tackle this longstanding bottleneck and the rising risks, we present Privasis (i.e., privacy oasis), the first million-scale fully synthetic dataset entirely built from scratch--an expansive reservoir of texts with rich and diverse private information--designed to broaden and accelerate research in areas where processing sensitive social data is inevitable. Compared to existing datasets, Privasis, comprising 1.4 million records, offers orders-of-magnitude larger scale with quality, and far greater diversity across various document types, including medical history, legal documents, financial records, calendars, and text messages with a total of 55.1 million annotated attributes such as ethnicity, date of birth, workplace, etc. We leverage Privasis to construct a parallel corpus for text sanitization with our pipeline that decomposes texts and applies targeted sanitization. Our compact sanitization models (<=4B) trained on this dataset outperform state-of-the-art large language models, such as GPT-5 and Qwen-3 235B. We plan to release data, models, and code to accelerate future research on privacy-sensitive domains and agents.
PDF11February 5, 2026