Aprendizaje de la Percepción Humana de Falsedad en Videos Generados por IA mediante Modelos de Lenguaje Multimodales
Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs
September 26, 2025
Autores: Xingyu Fu, Siyi Liu, Yinuo Xu, Pan Lu, Guangqiuse Hu, Tianbo Yang, Taran Anantasagar, Christopher Shen, Yikai Mao, Yuanzhe Liu, Keyush Shah, Chung Un Lee, Yejin Choi, James Zou, Dan Roth, Chris Callison-Burch
cs.AI
Resumen
¿Pueden los humanos identificar videos generados por IA (falsos) y proporcionar razones fundamentadas?
Si bien los modelos de generación de videos han avanzado rápidamente, una dimensión crítica —si los humanos pueden detectar rastros de deepfakes dentro de un video generado, es decir, artefactos visuales espaciotemporales fundamentados que revelan que un video fue generado por máquina— ha sido ampliamente pasada por alto. Presentamos DeeptraceReward, el primer punto de referencia detallado, espacial y temporalmente consciente, que anota rastros falsos percibidos por humanos para la recompensa en la generación de videos. El conjunto de datos comprende 4.3K anotaciones detalladas en 3.3K videos generados de alta calidad. Cada anotación proporciona una explicación en lenguaje natural, señala una región delimitada por un cuadro que contiene el rastro percibido y marca marcas de tiempo precisas de inicio y finalización. Consolidamos estas anotaciones en 9 categorías principales de rastros de deepfakes que llevan a los humanos a identificar un video como generado por IA, y entrenamos modelos de lenguaje multimodal (LM) como modelos de recompensa para imitar los juicios y localizaciones humanas. En DeeptraceReward, nuestro modelo de recompensa de 7B supera a GPT-5 en un 34.7% en promedio en la identificación de pistas falsas, fundamentación y explicación. Curiosamente, observamos un gradiente de dificultad consistente: la clasificación binaria de falso versus real es sustancialmente más fácil que la detección detallada de rastros de deepfakes; dentro de esta última, el rendimiento disminuye desde las explicaciones en lenguaje natural (más fáciles), hasta la fundamentación espacial, hasta el etiquetado temporal (más difícil). Al destacar los rastros de deepfakes percibidos por humanos, DeeptraceReward proporciona un banco de pruebas riguroso y una señal de entrenamiento para la generación de videos socialmente consciente y confiable.
English
Can humans identify AI-generated (fake) videos and provide grounded reasons?
While video generation models have advanced rapidly, a critical dimension --
whether humans can detect deepfake traces within a generated video, i.e.,
spatiotemporal grounded visual artifacts that reveal a video as machine
generated -- has been largely overlooked. We introduce DeeptraceReward, the
first fine-grained, spatially- and temporally- aware benchmark that annotates
human-perceived fake traces for video generation reward. The dataset comprises
4.3K detailed annotations across 3.3K high-quality generated videos. Each
annotation provides a natural-language explanation, pinpoints a bounding-box
region containing the perceived trace, and marks precise onset and offset
timestamps. We consolidate these annotations into 9 major categories of
deepfake traces that lead humans to identify a video as AI-generated, and train
multimodal language models (LMs) as reward models to mimic human judgments and
localizations. On DeeptraceReward, our 7B reward model outperforms GPT-5 by
34.7% on average across fake clue identification, grounding, and explanation.
Interestingly, we observe a consistent difficulty gradient: binary fake v.s.
real classification is substantially easier than fine-grained deepfake trace
detection; within the latter, performance degrades from natural language
explanations (easiest), to spatial grounding, to temporal labeling (hardest).
By foregrounding human-perceived deepfake traces, DeeptraceReward provides a
rigorous testbed and training signal for socially aware and trustworthy video
generation.