ChatPaper.aiChatPaper

Apprendimento della Percezione Umana di Falsità nei Video Generati da IA tramite Modelli Linguistici Multimodali

Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs

September 26, 2025
Autori: Xingyu Fu, Siyi Liu, Yinuo Xu, Pan Lu, Guangqiuse Hu, Tianbo Yang, Taran Anantasagar, Christopher Shen, Yikai Mao, Yuanzhe Liu, Keyush Shah, Chung Un Lee, Yejin Choi, James Zou, Dan Roth, Chris Callison-Burch
cs.AI

Abstract

Gli esseri umani possono identificare i video generati dall'IA (falsi) e fornire motivazioni fondate? Sebbene i modelli di generazione video abbiano fatto rapidi progressi, una dimensione critica -- se gli esseri umani possano rilevare tracce di deepfake all'interno di un video generato, ovvero artefatti visivi spaziotemporali fondati che rivelano un video come generato da una macchina -- è stata ampiamente trascurata. Introduciamo DeeptraceReward, il primo benchmark granulare, consapevole a livello spaziale e temporale, che annota le tracce percepite come false dagli esseri umani per la ricompensa nella generazione video. Il dataset comprende 4.3K annotazioni dettagliate su 3.3K video generati di alta qualità. Ogni annotazione fornisce una spiegazione in linguaggio naturale, individua una regione delimitata da un riquadro contenente la traccia percepita e segna i timestamp precisi di inizio e fine. Consolidiamo queste annotazioni in 9 categorie principali di tracce deepfake che portano gli esseri umani a identificare un video come generato dall'IA, e addestriamo modelli linguistici multimodali (LMs) come modelli di ricompensa per imitare i giudizi e le localizzazioni umane. Su DeeptraceReward, il nostro modello di ricompensa da 7B supera GPT-5 del 34.7% in media nell'identificazione degli indizi falsi, nel fondamento e nella spiegazione. È interessante notare che osserviamo un gradiente di difficoltà costante: la classificazione binaria falso contro reale è sostanzialmente più semplice rispetto al rilevamento granulare delle tracce deepfake; all'interno di quest'ultimo, le prestazioni diminuiscono dalle spiegazioni in linguaggio naturale (più facili), al fondamento spaziale, fino all'etichettatura temporale (più difficile). Mettendo in primo piano le tracce deepfake percepite dagli esseri umani, DeeptraceReward fornisce un banco di prova rigoroso e un segnale di addestramento per una generazione video socialmente consapevole e affidabile.
English
Can humans identify AI-generated (fake) videos and provide grounded reasons? While video generation models have advanced rapidly, a critical dimension -- whether humans can detect deepfake traces within a generated video, i.e., spatiotemporal grounded visual artifacts that reveal a video as machine generated -- has been largely overlooked. We introduce DeeptraceReward, the first fine-grained, spatially- and temporally- aware benchmark that annotates human-perceived fake traces for video generation reward. The dataset comprises 4.3K detailed annotations across 3.3K high-quality generated videos. Each annotation provides a natural-language explanation, pinpoints a bounding-box region containing the perceived trace, and marks precise onset and offset timestamps. We consolidate these annotations into 9 major categories of deepfake traces that lead humans to identify a video as AI-generated, and train multimodal language models (LMs) as reward models to mimic human judgments and localizations. On DeeptraceReward, our 7B reward model outperforms GPT-5 by 34.7% on average across fake clue identification, grounding, and explanation. Interestingly, we observe a consistent difficulty gradient: binary fake v.s. real classification is substantially easier than fine-grained deepfake trace detection; within the latter, performance degrades from natural language explanations (easiest), to spatial grounding, to temporal labeling (hardest). By foregrounding human-perceived deepfake traces, DeeptraceReward provides a rigorous testbed and training signal for socially aware and trustworthy video generation.
PDF162October 1, 2025