Detecção Robusta e Calibrada de Conteúdo Multimídia Autêntico

Resumo

Os modelos generativos podem sintetizar conteúdo altamente realista, os chamados deepfakes, que já estão a ser utilizados em larga escala para minar a autenticidade dos media digitais. Os métodos atuais de deteção de deepfakes não são fiáveis por duas razões: (i) distinguir conteúdo não autêntico a posteriori é frequentemente impossível (por exemplo, com amostras memorizadas), levando a uma taxa de falsos positivos (TFP) ilimitada; e (ii) a deteção carece de robustez, pois os adversários podem adaptar-se a detetores conhecidos com uma precisão quase perfeita usando recursos computacionais mínimos. Para superar estas limitações, propomos uma estrutura de ressíntese para determinar se uma amostra é autêntica ou se a sua autenticidade pode ser plausivelmente negada. Apresentamos duas contribuições principais, focando-nos no cenário de alta precisão e baixa taxa de deteção contra adversários eficientes (ou seja, com recursos computacionais limitados). Primeiro, demonstramos que o nosso método de ressíntese calibrada é a abordagem mais fiável para verificar amostras autênticas, mantendo TFPs baixas e controláveis. Segundo, mostramos que o nosso método alcança robustez adversarial contra adversários eficientes, enquanto os métodos anteriores são facilmente contornados com orçamentos computacionais idênticos. A nossa abordagem suporta múltiplas modalidades e aproveita técnicas de inversão de última geração.

English

Generative models can synthesize highly realistic content, so-called deepfakes, that are already being misused at scale to undermine digital media authenticity. Current deepfake detection methods are unreliable for two reasons: (i) distinguishing inauthentic content post-hoc is often impossible (e.g., with memorized samples), leading to an unbounded false positive rate (FPR); and (ii) detection lacks robustness, as adversaries can adapt to known detectors with near-perfect accuracy using minimal computational resources. To address these limitations, we propose a resynthesis framework to determine if a sample is authentic or if its authenticity can be plausibly denied. We make two key contributions focusing on the high-precision, low-recall setting against efficient (i.e., compute-restricted) adversaries. First, we demonstrate that our calibrated resynthesis method is the most reliable approach for verifying authentic samples while maintaining controllable, low FPRs. Second, we show that our method achieves adversarial robustness against efficient adversaries, whereas prior methods are easily evaded under identical compute budgets. Our approach supports multiple modalities and leverages state-of-the-art inversion techniques.

Detecção Robusta e Calibrada de Conteúdo Multimídia Autêntico

Robust and Calibrated Detection of Authentic Multimedia Content

Resumo

Support