Privasis: Sintetizzare il più grande dataset "pubblico" privato da zero

Abstract

La ricerca che coinvolge dati sensibili in termini di privacy è sempre stata limitata dalla scarsità di dati, in netto contrasto con altre aree che hanno beneficiato della scalabilità dei dati. Questa sfida sta diventando sempre più urgente poiché agli agenti di IA moderni - come OpenClaw e Gemini Agent - viene garantito un accesso persistente a informazioni personali altamente sensibili. Per affrontare questo collo di bottiglia di lunga data e i rischi crescenti, presentiamo Privasis (ovvero, oasi della privacy), il primo dataset sintetico su larga scala (milioni di elementi) interamente costruito da zero - un vasto bacino di testi con informazioni private ricche e diversificate - progettato per ampliare e accelerare la ricerca in aree in cui l'elaborazione di dati sociali sensibili è inevitabile. Rispetto ai dataset esistenti, Privasis, che comprende 1,4 milioni di record, offre una scala di ordini di grandezza superiore con qualità e una diversità molto maggiore tra vari tipi di documenti, inclusi anamnesi mediche, documenti legali, registri finanziari, calendari e messaggi di testo, con un totale di 55,1 milioni di attributi annotati come etnia, data di nascita, luogo di lavoro, ecc. Utilizziamo Privasis per costruire un corpus parallelo per la sanificazione dei testi con la nostra pipeline che scompone i testi e applica una sanificazione mirata. I nostri modelli compatti di sanificazione (<=4B) addestrati su questo dataset superano i modelli linguistici di grandi dimensioni all'avanguardia, come GPT-5 e Qwen-3 235B. Prevediamo di rilasciare dati, modelli e codice per accelerare la futura ricerca su domini e agenti sensibili alla privacy.

English

Research involving privacy-sensitive data has always been constrained by data scarcity, standing in sharp contrast to other areas that have benefited from data scaling. This challenge is becoming increasingly urgent as modern AI agents--such as OpenClaw and Gemini Agent--are granted persistent access to highly sensitive personal information. To tackle this longstanding bottleneck and the rising risks, we present Privasis (i.e., privacy oasis), the first million-scale fully synthetic dataset entirely built from scratch--an expansive reservoir of texts with rich and diverse private information--designed to broaden and accelerate research in areas where processing sensitive social data is inevitable. Compared to existing datasets, Privasis, comprising 1.4 million records, offers orders-of-magnitude larger scale with quality, and far greater diversity across various document types, including medical history, legal documents, financial records, calendars, and text messages with a total of 55.1 million annotated attributes such as ethnicity, date of birth, workplace, etc. We leverage Privasis to construct a parallel corpus for text sanitization with our pipeline that decomposes texts and applies targeted sanitization. Our compact sanitization models (<=4B) trained on this dataset outperform state-of-the-art large language models, such as GPT-5 and Qwen-3 235B. We plan to release data, models, and code to accelerate future research on privacy-sensitive domains and agents.

Privasis: Sintetizzare il più grande dataset "pubblico" privato da zero

Privasis: Synthesizing the Largest "Public" Private Dataset from Scratch

Abstract

Support