Privasis : Synthèse du plus grand jeu de données "public" privé à partir de zéro
Privasis: Synthesizing the Largest "Public" Private Dataset from Scratch
February 3, 2026
papers.authors: Hyunwoo Kim, Niloofar Mireshghallah, Michael Duan, Rui Xin, Shuyue Stella Li, Jaehun Jung, David Acuna, Qi Pang, Hanshen Xiao, G. Edward Suh, Sewoong Oh, Yulia Tsvetkov, Pang Wei Koh, Yejin Choi
cs.AI
papers.abstract
La recherche impliquant des données sensibles liées à la vie privée a toujours été limitée par la rareté des données, ce qui contraste fortement avec d'autres domaines ayant bénéficié de l'augmentation des volumes de données. Ce défi devient de plus en plus urgent alors que les agents d'IA modernes—tels qu'OpenClaw et Gemini Agent—obtiennent un accès persistant à des informations personnelles hautement sensibles. Pour résoudre ce goulot d'étranglement de longue date et les risques croissants, nous présentons Privasis (c'est-à-dire, oasis de confidentialité), le premier jeu de données entièrement synthétique à l'échelle du million, intégralement construit à partir de zéro—un vaste réservoir de textes contenant des informations privées riches et diversifiées—conçu pour élargir et accélérer la recherche dans les domaines où le traitement de données sociales sensibles est inévitable. Comparé aux jeux de données existants, Privasis, qui comprend 1,4 million d'enregistrements, offre une échelle plusieurs ordres de grandeur supérieure avec une qualité préservée, et une diversité bien plus grande couvrant différents types de documents, notamment les antécédents médicaux, les documents juridiques, les dossiers financiers, les agendas et les messages texte, avec un total de 55,1 millions d'attributs annotés tels que l'origine ethnique, la date de naissance, le lieu de travail, etc. Nous exploitons Privasis pour constituer un corpus parallèle pour l'anonymisation de texte grâce à notre pipeline qui décompose les textes et applique une anonymisation ciblée. Nos modèles compacts d'anonymisation (<=4B) entraînés sur ce jeu de données surpassent les grands modèles de langage les plus avancés, tels que GPT-5 et Qwen-3 235B. Nous prévoyons de publier les données, les modèles et le code pour accélérer les futures recherches sur les domaines et agents sensibles au respect de la vie privée.
English
Research involving privacy-sensitive data has always been constrained by data scarcity, standing in sharp contrast to other areas that have benefited from data scaling. This challenge is becoming increasingly urgent as modern AI agents--such as OpenClaw and Gemini Agent--are granted persistent access to highly sensitive personal information. To tackle this longstanding bottleneck and the rising risks, we present Privasis (i.e., privacy oasis), the first million-scale fully synthetic dataset entirely built from scratch--an expansive reservoir of texts with rich and diverse private information--designed to broaden and accelerate research in areas where processing sensitive social data is inevitable. Compared to existing datasets, Privasis, comprising 1.4 million records, offers orders-of-magnitude larger scale with quality, and far greater diversity across various document types, including medical history, legal documents, financial records, calendars, and text messages with a total of 55.1 million annotated attributes such as ethnicity, date of birth, workplace, etc. We leverage Privasis to construct a parallel corpus for text sanitization with our pipeline that decomposes texts and applies targeted sanitization. Our compact sanitization models (<=4B) trained on this dataset outperform state-of-the-art large language models, such as GPT-5 and Qwen-3 235B. We plan to release data, models, and code to accelerate future research on privacy-sensitive domains and agents.