ChatPaper.aiChatPaper

Privasis: ゼロから構築する最大規模の「公共的」プライベートデータセット

Privasis: Synthesizing the Largest "Public" Private Dataset from Scratch

February 3, 2026
著者: Hyunwoo Kim, Niloofar Mireshghallah, Michael Duan, Rui Xin, Shuyue Stella Li, Jaehun Jung, David Acuna, Qi Pang, Hanshen Xiao, G. Edward Suh, Sewoong Oh, Yulia Tsvetkov, Pang Wei Koh, Yejin Choi
cs.AI

要旨

プライバシーに配慮したデータを扱う研究は、常にデータ不足という制約に直面しており、データ規模の拡大による恩恵を受けている他の分野とは対照的である。OpenClawやGemini Agentのような現代のAIエージェントが高度に機微な個人情報への持続的アクセス権を付与されるにつれ、この課題はますます差し迫ったものとなっている。この長年のボトルネックと高まるリスクに取り組むため、我々はPrivasis(プライバシー・オアシス)を提案する。これは、機密性の高い社会データの処理が不可避な分野の研究を拡大・加速させるために設計された、初の100万規模で完全にスクラッチから構築された完全合成データセットであり、豊富で多様な個人情報を含むテキストの広大な貯水池である。既存のデータセットと比較して、140万レコードから成るPrivasisは、品質を保ちつつ桁違いに大規模であり、病歴、法律文書、財務記録、カレンダー、テキストメッセージなど、様々な文書タイプにわたるはるかに優れた多様性を提供し、人種、生年月日、職場など合計5510万の注釈付き属性を含む。我々はPrivasisを活用し、テキストを分解し対象を絞ったサニタイゼーションを適用するパイプラインを用いて、テキストサニタイゼーションのための並列コーパスを構築する。このデータセットで学習したコンパクトなサニタイゼーションモデル(<=40億パラメータ)は、GPT-5やQwen-3 235Bのような大規模言語モデルの最新モデルを凌駕する性能を示した。我々は、プライバシー機微領域およびエージェントに関する将来の研究を加速させるため、データ、モデル、コードの公開を計画している。
English
Research involving privacy-sensitive data has always been constrained by data scarcity, standing in sharp contrast to other areas that have benefited from data scaling. This challenge is becoming increasingly urgent as modern AI agents--such as OpenClaw and Gemini Agent--are granted persistent access to highly sensitive personal information. To tackle this longstanding bottleneck and the rising risks, we present Privasis (i.e., privacy oasis), the first million-scale fully synthetic dataset entirely built from scratch--an expansive reservoir of texts with rich and diverse private information--designed to broaden and accelerate research in areas where processing sensitive social data is inevitable. Compared to existing datasets, Privasis, comprising 1.4 million records, offers orders-of-magnitude larger scale with quality, and far greater diversity across various document types, including medical history, legal documents, financial records, calendars, and text messages with a total of 55.1 million annotated attributes such as ethnicity, date of birth, workplace, etc. We leverage Privasis to construct a parallel corpus for text sanitization with our pipeline that decomposes texts and applies targeted sanitization. Our compact sanitization models (<=4B) trained on this dataset outperform state-of-the-art large language models, such as GPT-5 and Qwen-3 235B. We plan to release data, models, and code to accelerate future research on privacy-sensitive domains and agents.
PDF11February 5, 2026