ChatPaper.aiChatPaper

Apprentissage de la perception humaine de l'artificialité dans les vidéos générées par IA via des modèles de langage multimodaux

Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs

September 26, 2025
papers.authors: Xingyu Fu, Siyi Liu, Yinuo Xu, Pan Lu, Guangqiuse Hu, Tianbo Yang, Taran Anantasagar, Christopher Shen, Yikai Mao, Yuanzhe Liu, Keyush Shah, Chung Un Lee, Yejin Choi, James Zou, Dan Roth, Chris Callison-Burch
cs.AI

papers.abstract

Les humains peuvent-ils identifier les vidéos générées par IA (fausses) et fournir des raisons justifiées ? Alors que les modèles de génération vidéo ont progressé rapidement, une dimension critique -- à savoir si les humains peuvent détecter des traces de deepfake dans une vidéo générée, c'est-à-dire des artefacts visuels spatio-temporels qui révèlent qu'une vidéo est générée par une machine -- a été largement négligée. Nous présentons DeeptraceReward, le premier benchmark finement granulaire, conscient spatialement et temporellement, qui annote les traces de faux perçues par les humains pour la récompense de génération vidéo. Le jeu de données comprend 4,3K annotations détaillées sur 3,3K vidéos générées de haute qualité. Chaque annotation fournit une explication en langage naturel, localise une région de délimitation contenant la trace perçue, et marque des timestamps précis de début et de fin. Nous consolidons ces annotations en 9 catégories principales de traces de deepfake qui amènent les humains à identifier une vidéo comme générée par IA, et nous entraînons des modèles de langage multimodaux (LM) comme modèles de récompense pour imiter les jugements et localisations humaines. Sur DeeptraceReward, notre modèle de récompense de 7B surpasse GPT-5 de 34,7 % en moyenne sur l'identification des indices de faux, la localisation et l'explication. Fait intéressant, nous observons un gradient de difficulté constant : la classification binaire faux vs. réel est nettement plus facile que la détection fine des traces de deepfake ; dans cette dernière, la performance diminue des explications en langage naturel (les plus faciles), à la localisation spatiale, jusqu'à l'étiquetage temporel (le plus difficile). En mettant en avant les traces de deepfake perçues par les humains, DeeptraceReward fournit un banc d'essai rigoureux et un signal d'entraînement pour une génération vidéo socialement consciente et digne de confiance.
English
Can humans identify AI-generated (fake) videos and provide grounded reasons? While video generation models have advanced rapidly, a critical dimension -- whether humans can detect deepfake traces within a generated video, i.e., spatiotemporal grounded visual artifacts that reveal a video as machine generated -- has been largely overlooked. We introduce DeeptraceReward, the first fine-grained, spatially- and temporally- aware benchmark that annotates human-perceived fake traces for video generation reward. The dataset comprises 4.3K detailed annotations across 3.3K high-quality generated videos. Each annotation provides a natural-language explanation, pinpoints a bounding-box region containing the perceived trace, and marks precise onset and offset timestamps. We consolidate these annotations into 9 major categories of deepfake traces that lead humans to identify a video as AI-generated, and train multimodal language models (LMs) as reward models to mimic human judgments and localizations. On DeeptraceReward, our 7B reward model outperforms GPT-5 by 34.7% on average across fake clue identification, grounding, and explanation. Interestingly, we observe a consistent difficulty gradient: binary fake v.s. real classification is substantially easier than fine-grained deepfake trace detection; within the latter, performance degrades from natural language explanations (easiest), to spatial grounding, to temporal labeling (hardest). By foregrounding human-perceived deepfake traces, DeeptraceReward provides a rigorous testbed and training signal for socially aware and trustworthy video generation.
PDF141October 1, 2025