Het leren van menselijk waargenomen nepheid in AI-gegenereerde video's via multimodale LLM's
Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs
September 26, 2025
Auteurs: Xingyu Fu, Siyi Liu, Yinuo Xu, Pan Lu, Guangqiuse Hu, Tianbo Yang, Taran Anantasagar, Christopher Shen, Yikai Mao, Yuanzhe Liu, Keyush Shah, Chung Un Lee, Yejin Choi, James Zou, Dan Roth, Chris Callison-Burch
cs.AI
Samenvatting
Kunnen mensen AI-gegenereerde (nep)video's identificeren en onderbouwde redenen geven?
Hoewel videogeneratiemodellen snel zijn gevorderd, is een kritische dimensie --
of mensen deepfake-sporen in een gegenereerde video kunnen detecteren, d.w.z.
spatiotemporeel verankerde visuele artefacten die een video als machinaal
gegenereerd onthullen -- grotendeels over het hoofd gezien. We introduceren
DeeptraceReward, de eerste fijnmazige, ruimtelijk en temporeel bewuste benchmark
die door mensen waargenomen nep-sporen annoteert voor videogeneratiebeloning. De
dataset omvat 4.3K gedetailleerde annotaties over 3.3K hoogwaardige gegenereerde
video's. Elke annotatie biedt een natuurlijktaaluitleg, wijst een begrenzingsvlak
aan dat het waargenomen spoor bevat, en markeert precieze begin- en eindtijden.
We consolideren deze annotaties in 9 hoofdcategorieën van deepfake-sporen die
mensen ertoe brengen een video als AI-gegenereerd te identificeren, en trainen
multimodale taalmodel(len) (LM's) als beloningsmodellen om menselijke oordelen
en lokalisaties na te bootsen. Op DeeptraceReward presteert ons 7B
beloningsmodel gemiddeld 34.7% beter dan GPT-5 op het identificeren van
nep-aanwijzingen, verankering en uitleg. Interessant genoeg observeren we een
consistent moeilijkheidsgradiënt: binaire nep versus echte classificatie is
aanzienlijk eenvoudiger dan fijnmazige deepfake-spoordetectie; binnen dat laatste
neemt de prestaties af van natuurlijktaaluitleg (het eenvoudigst), naar ruimtelijke
verankering, naar temporele labeling (het moeilijkst). Door door mensen waargenomen
deepfake-sporen naar voren te halen, biedt DeeptraceReward een rigoureuze testomgeving
en trainingssignaal voor sociaal bewuste en betrouwbare videogeneratie.
English
Can humans identify AI-generated (fake) videos and provide grounded reasons?
While video generation models have advanced rapidly, a critical dimension --
whether humans can detect deepfake traces within a generated video, i.e.,
spatiotemporal grounded visual artifacts that reveal a video as machine
generated -- has been largely overlooked. We introduce DeeptraceReward, the
first fine-grained, spatially- and temporally- aware benchmark that annotates
human-perceived fake traces for video generation reward. The dataset comprises
4.3K detailed annotations across 3.3K high-quality generated videos. Each
annotation provides a natural-language explanation, pinpoints a bounding-box
region containing the perceived trace, and marks precise onset and offset
timestamps. We consolidate these annotations into 9 major categories of
deepfake traces that lead humans to identify a video as AI-generated, and train
multimodal language models (LMs) as reward models to mimic human judgments and
localizations. On DeeptraceReward, our 7B reward model outperforms GPT-5 by
34.7% on average across fake clue identification, grounding, and explanation.
Interestingly, we observe a consistent difficulty gradient: binary fake v.s.
real classification is substantially easier than fine-grained deepfake trace
detection; within the latter, performance degrades from natural language
explanations (easiest), to spatial grounding, to temporal labeling (hardest).
By foregrounding human-perceived deepfake traces, DeeptraceReward provides a
rigorous testbed and training signal for socially aware and trustworthy video
generation.