Aprendendo a Percepção Humana de Falsidade em Vídeos Gerados por IA por meio de LLMs Multimodais
Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs
September 26, 2025
Autores: Xingyu Fu, Siyi Liu, Yinuo Xu, Pan Lu, Guangqiuse Hu, Tianbo Yang, Taran Anantasagar, Christopher Shen, Yikai Mao, Yuanzhe Liu, Keyush Shah, Chung Un Lee, Yejin Choi, James Zou, Dan Roth, Chris Callison-Burch
cs.AI
Resumo
Os seres humanos conseguem identificar vídeos gerados por IA (falsos) e fornecer razões fundamentadas?
Embora os modelos de geração de vídeo tenham avançado rapidamente, uma dimensão crítica -- se os seres humanos conseguem detectar traços de deepfake em um vídeo gerado, ou seja, artefatos visuais espaciotemporais fundamentados que revelam um vídeo como gerado por máquina -- tem sido amplamente negligenciada. Apresentamos o DeeptraceReward, o primeiro benchmark detalhado, espacial e temporalmente consciente, que anota traços falsos percebidos por humanos para recompensa na geração de vídeos. O conjunto de dados compreende 4,3 mil anotações detalhadas em 3,3 mil vídeos gerados de alta qualidade. Cada anotação fornece uma explicação em linguagem natural, aponta uma região delimitada contendo o traço percebido e marca os tempos exatos de início e término. Consolidamos essas anotações em 9 categorias principais de traços de deepfake que levam os humanos a identificar um vídeo como gerado por IA, e treinamos modelos de linguagem multimodal (LMs) como modelos de recompensa para imitar os julgamentos e localizações humanos. No DeeptraceReward, nosso modelo de recompensa de 7B supera o GPT-5 em 34,7% em média na identificação de pistas falsas, fundamentação e explicação. Curiosamente, observamos um gradiente de dificuldade consistente: a classificação binária de falso versus real é substancialmente mais fácil do que a detecção detalhada de traços de deepfake; dentro desta última, o desempenho decai das explicações em linguagem natural (mais fácil), para a fundamentação espacial, até a rotulação temporal (mais difícil). Ao destacar traços de deepfake percebidos por humanos, o DeeptraceReward fornece um ambiente de teste rigoroso e um sinal de treinamento para a geração de vídeos socialmente conscientes e confiáveis.
English
Can humans identify AI-generated (fake) videos and provide grounded reasons?
While video generation models have advanced rapidly, a critical dimension --
whether humans can detect deepfake traces within a generated video, i.e.,
spatiotemporal grounded visual artifacts that reveal a video as machine
generated -- has been largely overlooked. We introduce DeeptraceReward, the
first fine-grained, spatially- and temporally- aware benchmark that annotates
human-perceived fake traces for video generation reward. The dataset comprises
4.3K detailed annotations across 3.3K high-quality generated videos. Each
annotation provides a natural-language explanation, pinpoints a bounding-box
region containing the perceived trace, and marks precise onset and offset
timestamps. We consolidate these annotations into 9 major categories of
deepfake traces that lead humans to identify a video as AI-generated, and train
multimodal language models (LMs) as reward models to mimic human judgments and
localizations. On DeeptraceReward, our 7B reward model outperforms GPT-5 by
34.7% on average across fake clue identification, grounding, and explanation.
Interestingly, we observe a consistent difficulty gradient: binary fake v.s.
real classification is substantially easier than fine-grained deepfake trace
detection; within the latter, performance degrades from natural language
explanations (easiest), to spatial grounding, to temporal labeling (hardest).
By foregrounding human-perceived deepfake traces, DeeptraceReward provides a
rigorous testbed and training signal for socially aware and trustworthy video
generation.