Apprendimento della Percezione Umana di Falsità nei Video Generati da IA tramite Modelli Linguistici Multimodali
Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs
September 26, 2025
Autori: Xingyu Fu, Siyi Liu, Yinuo Xu, Pan Lu, Guangqiuse Hu, Tianbo Yang, Taran Anantasagar, Christopher Shen, Yikai Mao, Yuanzhe Liu, Keyush Shah, Chung Un Lee, Yejin Choi, James Zou, Dan Roth, Chris Callison-Burch
cs.AI
Abstract
Gli esseri umani possono identificare i video generati dall'IA (falsi) e fornire motivazioni fondate?
Sebbene i modelli di generazione video abbiano fatto rapidi progressi, una dimensione critica --
se gli esseri umani possano rilevare tracce di deepfake all'interno di un video generato, ovvero
artefatti visivi spaziotemporali fondati che rivelano un video come generato da una macchina --
è stata ampiamente trascurata. Introduciamo DeeptraceReward, il primo benchmark
granulare, consapevole a livello spaziale e temporale, che annota le tracce percepite come
false dagli esseri umani per la ricompensa nella generazione video. Il dataset comprende
4.3K annotazioni dettagliate su 3.3K video generati di alta qualità. Ogni annotazione fornisce
una spiegazione in linguaggio naturale, individua una regione delimitata da un riquadro
contenente la traccia percepita e segna i timestamp precisi di inizio e fine. Consolidiamo
queste annotazioni in 9 categorie principali di tracce deepfake che portano gli esseri umani
a identificare un video come generato dall'IA, e addestriamo modelli linguistici multimodali
(LMs) come modelli di ricompensa per imitare i giudizi e le localizzazioni umane. Su
DeeptraceReward, il nostro modello di ricompensa da 7B supera GPT-5 del 34.7% in media
nell'identificazione degli indizi falsi, nel fondamento e nella spiegazione. È interessante
notare che osserviamo un gradiente di difficoltà costante: la classificazione binaria falso
contro reale è sostanzialmente più semplice rispetto al rilevamento granulare delle tracce
deepfake; all'interno di quest'ultimo, le prestazioni diminuiscono dalle spiegazioni in
linguaggio naturale (più facili), al fondamento spaziale, fino all'etichettatura temporale
(più difficile). Mettendo in primo piano le tracce deepfake percepite dagli esseri umani,
DeeptraceReward fornisce un banco di prova rigoroso e un segnale di addestramento per
una generazione video socialmente consapevole e affidabile.
English
Can humans identify AI-generated (fake) videos and provide grounded reasons?
While video generation models have advanced rapidly, a critical dimension --
whether humans can detect deepfake traces within a generated video, i.e.,
spatiotemporal grounded visual artifacts that reveal a video as machine
generated -- has been largely overlooked. We introduce DeeptraceReward, the
first fine-grained, spatially- and temporally- aware benchmark that annotates
human-perceived fake traces for video generation reward. The dataset comprises
4.3K detailed annotations across 3.3K high-quality generated videos. Each
annotation provides a natural-language explanation, pinpoints a bounding-box
region containing the perceived trace, and marks precise onset and offset
timestamps. We consolidate these annotations into 9 major categories of
deepfake traces that lead humans to identify a video as AI-generated, and train
multimodal language models (LMs) as reward models to mimic human judgments and
localizations. On DeeptraceReward, our 7B reward model outperforms GPT-5 by
34.7% on average across fake clue identification, grounding, and explanation.
Interestingly, we observe a consistent difficulty gradient: binary fake v.s.
real classification is substantially easier than fine-grained deepfake trace
detection; within the latter, performance degrades from natural language
explanations (easiest), to spatial grounding, to temporal labeling (hardest).
By foregrounding human-perceived deepfake traces, DeeptraceReward provides a
rigorous testbed and training signal for socially aware and trustworthy video
generation.