Privasis: Создание крупнейшего «общедоступного» набора приватных данных с нуля
Privasis: Synthesizing the Largest "Public" Private Dataset from Scratch
February 3, 2026
Авторы: Hyunwoo Kim, Niloofar Mireshghallah, Michael Duan, Rui Xin, Shuyue Stella Li, Jaehun Jung, David Acuna, Qi Pang, Hanshen Xiao, G. Edward Suh, Sewoong Oh, Yulia Tsvetkov, Pang Wei Koh, Yejin Choi
cs.AI
Аннотация
Исследования с использованием конфиденциальных данных традиционно ограничивались проблемой недостатка данных, что резко контрастирует с другими областями, получившими преимущества от масштабирования данных. Эта проблема становится все более актуальной, поскольку современные ИИ-агенты, такие как OpenClaw и Gemini Agent, получают постоянный доступ к высокочувствительной личной информации. Для решения этого давнего ограничения и растущих рисков мы представляем Privasis (сокр. от англ. «privacy oasis» — оазис конфиденциальности), первый миллионный полностью синтетический набор данных, созданный с нуля — обширное хранилище текстов с богатой и разнообразной личной информацией, — предназначенный для расширения и ускорения исследований в областях, где обработка конфиденциальных социальных данных неизбежна. По сравнению с существующими наборами данных, Privasis, содержащий 1,4 миллиона записей, предлагает на порядки больший масштаб при высоком качестве и значительно большее разнообразие типов документов, включая медицинские истории, юридические документы, финансовые отчеты, календари и текстовые сообщения, с общим количеством в 55,1 миллиона размеченных атрибутов, таких как этническая принадлежность, дата рождения, место работы и т.д. Мы используем Privasis для создания параллельного корпуса для очистки текстов с помощью нашего конвейера, который декомпозирует тексты и применяет целевую санацию. Наши компактные модели очистки (≤4 млрд параметров), обученные на этом наборе данных, превосходят передовые большие языковые модели, такие как GPT-5 и Qwen-3 235B. Мы планируем опубликовать данные, модели и код для ускорения будущих исследований в области конфиденциальных данных и агентов.
English
Research involving privacy-sensitive data has always been constrained by data scarcity, standing in sharp contrast to other areas that have benefited from data scaling. This challenge is becoming increasingly urgent as modern AI agents--such as OpenClaw and Gemini Agent--are granted persistent access to highly sensitive personal information. To tackle this longstanding bottleneck and the rising risks, we present Privasis (i.e., privacy oasis), the first million-scale fully synthetic dataset entirely built from scratch--an expansive reservoir of texts with rich and diverse private information--designed to broaden and accelerate research in areas where processing sensitive social data is inevitable. Compared to existing datasets, Privasis, comprising 1.4 million records, offers orders-of-magnitude larger scale with quality, and far greater diversity across various document types, including medical history, legal documents, financial records, calendars, and text messages with a total of 55.1 million annotated attributes such as ethnicity, date of birth, workplace, etc. We leverage Privasis to construct a parallel corpus for text sanitization with our pipeline that decomposes texts and applies targeted sanitization. Our compact sanitization models (<=4B) trained on this dataset outperform state-of-the-art large language models, such as GPT-5 and Qwen-3 235B. We plan to release data, models, and code to accelerate future research on privacy-sensitive domains and agents.