Detección Robusta y Calibrada de Contenido Multimedia Auténtico
Robust and Calibrated Detection of Authentic Multimedia Content
December 17, 2025
Autores: Sarim Hashmi, Abdelrahman Elsayed, Mohammed Talha Alam, Samuele Poppi, Nils Lukas
cs.AI
Resumen
Los modelos generativos pueden sintetizar contenido de gran realismo, los denominados deepfakes, que ya se están utilizando de forma masiva para socavar la autenticidad de los medios digitales. Los métodos actuales de detección de deepfakes no son fiables por dos razones: (i) distinguir contenido no auténtico a posteriori suele ser imposible (por ejemplo, con muestras memorizadas), lo que conduce a una tasa de falsos positivos (TFP) ilimitada; y (ii) la detección carece de robustez, ya que los adversarios pueden adaptarse a los detectores conocidos con una precisión casi perfecta utilizando recursos computacionales mínimos. Para abordar estas limitaciones, proponemos un marco de resíntesis para determinar si una muestra es auténtica o si su autenticidad puede negarse de manera plausible. Realizamos dos contribuciones clave centrándonos en el entorno de alta precisión y baja exhaustividad frente a adversarios eficientes (es decir, con restricciones computacionales). En primer lugar, demostramos que nuestro método de resíntesis calibrado es el enfoque más fiable para verificar muestras auténticas manteniendo TFPs bajas y controlables. En segundo lugar, mostramos que nuestro método logra robustez adversarial contra adversarios eficientes, mientras que los métodos anteriores son fácilmente evadidos con los mismos presupuestos computacionales. Nuestro enfoque admite múltiples modalidades y aprovecha técnicas de inversión de última generación.
English
Generative models can synthesize highly realistic content, so-called deepfakes, that are already being misused at scale to undermine digital media authenticity. Current deepfake detection methods are unreliable for two reasons: (i) distinguishing inauthentic content post-hoc is often impossible (e.g., with memorized samples), leading to an unbounded false positive rate (FPR); and (ii) detection lacks robustness, as adversaries can adapt to known detectors with near-perfect accuracy using minimal computational resources. To address these limitations, we propose a resynthesis framework to determine if a sample is authentic or if its authenticity can be plausibly denied. We make two key contributions focusing on the high-precision, low-recall setting against efficient (i.e., compute-restricted) adversaries. First, we demonstrate that our calibrated resynthesis method is the most reliable approach for verifying authentic samples while maintaining controllable, low FPRs. Second, we show that our method achieves adversarial robustness against efficient adversaries, whereas prior methods are easily evaded under identical compute budgets. Our approach supports multiple modalities and leverages state-of-the-art inversion techniques.