프리바시스: 최대 규모의 '공개' 프라이빗 데이터셋 구축
Privasis: Synthesizing the Largest "Public" Private Dataset from Scratch
February 3, 2026
저자: Hyunwoo Kim, Niloofar Mireshghallah, Michael Duan, Rui Xin, Shuyue Stella Li, Jaehun Jung, David Acuna, Qi Pang, Hanshen Xiao, G. Edward Suh, Sewoong Oh, Yulia Tsvetkov, Pang Wei Koh, Yejin Choi
cs.AI
초록
개인정보 민감 데이터를 활용한 연구는 항상 데이터 부족에 제약을 받아왔으며, 이는 데이터 규모 확장의 혜택을 본 다른 분야와 뚜렷한 대비를 이룹니다. OpenClaw 및 Gemini Agent와 같은 현대 AI 에이전트가 매우 민감한 개인 정보에 지속적으로 접근할 수 있게 되면서 이 문제는 점점 더 시급해지고 있습니다. 이러한 오랜 난제와 증가하는 위험을 해결하기 위해 우리는 Privasis(Privacy Oasis)를 소개합니다. Privasis는 민감한 사회적 데이터 처리가 불가피한 분야의 연구를 확대하고 가속화하기 위해 설계된, 풍부하고 다양한 개인정보를 담은 방대한 텍스트 저장소이자, 처음부터 완전히 합성된 최초의 백만 규모 데이터셋입니다. 기존 데이터셋과 비교할 때 140만 개의 레코드로 구성된 Privasis는 질적 수준을 유지한 채 규모가 수준 차원으로 크며, 의료 기록, 법률 문서, 금융 기록, 일정, 문자 메시지 등 다양한 문서 유형에 걸쳐 훨씬 더 큰 다양성을 제공합니다. 여기에는 인종, 생년월일, 직장 등 총 5,510만 개의 주석 처리된 속성이 포함됩니다. 우리는 Privasis를 활용하여 텍스트를 분해하고 대상별 삭제/익명화를 적용하는 파이프라인으로 텍스트 익명화를 위한 병렬 코퍼스를 구축합니다. 이 데이터셋으로 학습된 소규모 익명화 모델들(<=40억 매개변수)은 GPT-5 및 Qwen-3 235B와 같은 최첨단 대규모 언어 모델을 능가하는 성능을 보입니다. 우리는 개인정보 민감 분야 및 에이전트에 대한 향후 연구를 가속화하기 위해 데이터, 모델 및 코드를 공개할 계획입니다.
English
Research involving privacy-sensitive data has always been constrained by data scarcity, standing in sharp contrast to other areas that have benefited from data scaling. This challenge is becoming increasingly urgent as modern AI agents--such as OpenClaw and Gemini Agent--are granted persistent access to highly sensitive personal information. To tackle this longstanding bottleneck and the rising risks, we present Privasis (i.e., privacy oasis), the first million-scale fully synthetic dataset entirely built from scratch--an expansive reservoir of texts with rich and diverse private information--designed to broaden and accelerate research in areas where processing sensitive social data is inevitable. Compared to existing datasets, Privasis, comprising 1.4 million records, offers orders-of-magnitude larger scale with quality, and far greater diversity across various document types, including medical history, legal documents, financial records, calendars, and text messages with a total of 55.1 million annotated attributes such as ethnicity, date of birth, workplace, etc. We leverage Privasis to construct a parallel corpus for text sanitization with our pipeline that decomposes texts and applies targeted sanitization. Our compact sanitization models (<=4B) trained on this dataset outperform state-of-the-art large language models, such as GPT-5 and Qwen-3 235B. We plan to release data, models, and code to accelerate future research on privacy-sensitive domains and agents.