Privasis: Sintetizando o Maior Conjunto de Dados "Público" Privado do Zero

Resumo

A investigação envolvendo dados sensíveis à privacidade sempre foi limitada pela escassez de dados, contrastando fortemente com outras áreas que beneficiaram da escalabilidade de dados. Este desafio torna-se cada vez mais urgente à medida que agentes de IA modernos – como o OpenClaw e o Gemini Agent – obtêm acesso persistente a informações pessoais altamente sensíveis. Para enfrentar este obstáculo antigo e os riscos crescentes, apresentamos o Privasis (ou seja, oásis de privacidade), o primeiro conjunto de dados sintético em escala milionária totalmente construído de raiz – um reservatório expansivo de textos com informações privadas ricas e diversificadas – concebido para alargar e acelerar a investigação em áreas onde o processamento de dados sociais sensíveis é inevitável. Comparado com conjuntos de dados existentes, o Privasis, que compreende 1,4 milhões de registos, oferece uma escala ordens de magnitude maior com qualidade, e uma diversidade muito superior em vários tipos de documentos, incluindo historiais médicos, documentos legais, registos financeiros, calendários e mensagens de texto, com um total de 55,1 milhões de atributos anotados, como etnia, data de nascimento, local de trabalho, etc. Aproveitamos o Privasis para construir um corpus paralelo para anonimização de texto com o nosso pipeline que decompõe textos e aplica anonimização direcionada. Os nossos modelos compactos de anonimização (<=4B) treinados neste conjunto de dados superam os modelos de linguagem grandes mais avançados, como o GPT-5 e o Qwen-3 235B. Planeamos disponibilizar dados, modelos e código para acelerar futuras investigações em domínios e agentes sensíveis à privacidade.

English

Research involving privacy-sensitive data has always been constrained by data scarcity, standing in sharp contrast to other areas that have benefited from data scaling. This challenge is becoming increasingly urgent as modern AI agents--such as OpenClaw and Gemini Agent--are granted persistent access to highly sensitive personal information. To tackle this longstanding bottleneck and the rising risks, we present Privasis (i.e., privacy oasis), the first million-scale fully synthetic dataset entirely built from scratch--an expansive reservoir of texts with rich and diverse private information--designed to broaden and accelerate research in areas where processing sensitive social data is inevitable. Compared to existing datasets, Privasis, comprising 1.4 million records, offers orders-of-magnitude larger scale with quality, and far greater diversity across various document types, including medical history, legal documents, financial records, calendars, and text messages with a total of 55.1 million annotated attributes such as ethnicity, date of birth, workplace, etc. We leverage Privasis to construct a parallel corpus for text sanitization with our pipeline that decomposes texts and applies targeted sanitization. Our compact sanitization models (<=4B) trained on this dataset outperform state-of-the-art large language models, such as GPT-5 and Qwen-3 235B. We plan to release data, models, and code to accelerate future research on privacy-sensitive domains and agents.

Privasis: Sintetizando o Maior Conjunto de Dados "Público" Privado do Zero

Privasis: Synthesizing the Largest "Public" Private Dataset from Scratch

Resumo

Support