ChatPaper.aiChatPaper

Erlernen der menschlich wahrgenommenen Künstlichkeit in KI-generierten Videos durch multimodale LLMs

Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs

September 26, 2025
papers.authors: Xingyu Fu, Siyi Liu, Yinuo Xu, Pan Lu, Guangqiuse Hu, Tianbo Yang, Taran Anantasagar, Christopher Shen, Yikai Mao, Yuanzhe Liu, Keyush Shah, Chung Un Lee, Yejin Choi, James Zou, Dan Roth, Chris Callison-Burch
cs.AI

papers.abstract

Können Menschen KI-generierte (gefälschte) Videos erkennen und fundierte Gründe dafür angeben? Während Videogenerierungsmodelle rasante Fortschritte gemacht haben, wurde eine kritische Dimension – ob Menschen Deepfake-Spuren in einem generierten Video erkennen können, d.h. räumlich und zeitlich verankerte visuelle Artefakte, die ein Video als maschinell generiert offenbaren – weitgehend übersehen. Wir stellen DeeptraceReward vor, den ersten fein abgestimmten, räumlich und zeitlich bewussten Benchmark, der menschlich wahrgenommene Fälschungsspuren für die Videogenerierungsbewertung annotiert. Der Datensatz umfasst 4.3K detaillierte Annotationen über 3.3K hochwertige generierte Videos. Jede Annotation liefert eine natürliche Sprachbeschreibung, lokalisiert eine Begrenzungsbox-Region, die die wahrgenommene Spur enthält, und markiert präzise Anfangs- und Endzeitpunkte. Wir konsolidieren diese Annotationen in 9 Hauptkategorien von Deepfake-Spuren, die Menschen dazu veranlassen, ein Video als KI-generiert zu identifizieren, und trainieren multimodale Sprachmodelle (LMs) als Belohnungsmodelle, um menschliche Urteile und Lokalisierungen nachzuahmen. Auf DeeptraceReward übertrifft unser 7B-Belohnungsmodell GPT-5 im Durchschnitt um 34,7 % bei der Identifikation von Fälschungshinweisen, der Verankerung und der Erklärung. Interessanterweise beobachten wir einen konsistenten Schwierigkeitsgradienten: Die binäre Klassifizierung von gefälscht gegenüber echt ist wesentlich einfacher als die fein abgestimmte Deepfake-Spurenerkennung; innerhalb der letzteren verschlechtert sich die Leistung von natürlichen Spracherklärungen (am einfachsten), über räumliche Verankerung, bis hin zur zeitlichen Kennzeichnung (am schwierigsten). Indem DeeptraceReward menschlich wahrgenommene Deepfake-Spuren in den Vordergrund stellt, bietet es eine rigorose Testumgebung und ein Trainingssignal für sozial bewusste und vertrauenswürdige Videogenerierung.
English
Can humans identify AI-generated (fake) videos and provide grounded reasons? While video generation models have advanced rapidly, a critical dimension -- whether humans can detect deepfake traces within a generated video, i.e., spatiotemporal grounded visual artifacts that reveal a video as machine generated -- has been largely overlooked. We introduce DeeptraceReward, the first fine-grained, spatially- and temporally- aware benchmark that annotates human-perceived fake traces for video generation reward. The dataset comprises 4.3K detailed annotations across 3.3K high-quality generated videos. Each annotation provides a natural-language explanation, pinpoints a bounding-box region containing the perceived trace, and marks precise onset and offset timestamps. We consolidate these annotations into 9 major categories of deepfake traces that lead humans to identify a video as AI-generated, and train multimodal language models (LMs) as reward models to mimic human judgments and localizations. On DeeptraceReward, our 7B reward model outperforms GPT-5 by 34.7% on average across fake clue identification, grounding, and explanation. Interestingly, we observe a consistent difficulty gradient: binary fake v.s. real classification is substantially easier than fine-grained deepfake trace detection; within the latter, performance degrades from natural language explanations (easiest), to spatial grounding, to temporal labeling (hardest). By foregrounding human-perceived deepfake traces, DeeptraceReward provides a rigorous testbed and training signal for socially aware and trustworthy video generation.
PDF141October 1, 2025