Изучение воспринимаемой человеком искусственности в видео, созданных ИИ, с помощью мультимодальных языковых моделей
Learning Human-Perceived Fakeness in AI-Generated Videos via Multimodal LLMs
September 26, 2025
Авторы: Xingyu Fu, Siyi Liu, Yinuo Xu, Pan Lu, Guangqiuse Hu, Tianbo Yang, Taran Anantasagar, Christopher Shen, Yikai Mao, Yuanzhe Liu, Keyush Shah, Chung Un Lee, Yejin Choi, James Zou, Dan Roth, Chris Callison-Burch
cs.AI
Аннотация
Могут ли люди идентифицировать сгенерированные ИИ (поддельные) видео и обосновать свои выводы?
Хотя модели генерации видео быстро развиваются, критический аспект — способность людей обнаруживать следы дипфейков в сгенерированных видео, то есть пространственно-временные визуальные артефакты, которые выдают видео как машинно созданное, — оставался в значительной степени упущенным. Мы представляем DeeptraceReward, первый детализированный бенчмарк, учитывающий пространственные и временные аспекты, который аннотирует воспринимаемые человеком следы подделок для оценки качества генерации видео. Набор данных включает 4,3 тыс. подробных аннотаций для 3,3 тыс. высококачественных сгенерированных видео. Каждая аннотация содержит объяснение на естественном языке, указывает ограничивающую рамку области с воспринимаемым следом и отмечает точные временные метки начала и окончания. Мы объединили эти аннотации в 9 основных категорий следов дипфейков, которые позволяют людям идентифицировать видео как сгенерированное ИИ, и обучили мультимодальные языковые модели (LM) в качестве моделей вознаграждения для имитации человеческих суждений и локализации. На DeeptraceReward наша модель вознаграждения с 7 млрд параметров превосходит GPT-5 на 34,7% в среднем по задачам идентификации поддельных следов, их локализации и объяснения. Интересно, что мы наблюдаем устойчивый градиент сложности: бинарная классификация на поддельное и настоящее видео значительно проще, чем детектирование тонких следов дипфейков; в последнем случае производительность снижается от объяснений на естественном языке (самое простое), к пространственной локализации, и далее к временной маркировке (самое сложное). Выделяя воспринимаемые человеком следы дипфейков, DeeptraceReward предоставляет строгую тестовую среду и обучающий сигнал для социально осознанной и заслуживающей доверия генерации видео.
English
Can humans identify AI-generated (fake) videos and provide grounded reasons?
While video generation models have advanced rapidly, a critical dimension --
whether humans can detect deepfake traces within a generated video, i.e.,
spatiotemporal grounded visual artifacts that reveal a video as machine
generated -- has been largely overlooked. We introduce DeeptraceReward, the
first fine-grained, spatially- and temporally- aware benchmark that annotates
human-perceived fake traces for video generation reward. The dataset comprises
4.3K detailed annotations across 3.3K high-quality generated videos. Each
annotation provides a natural-language explanation, pinpoints a bounding-box
region containing the perceived trace, and marks precise onset and offset
timestamps. We consolidate these annotations into 9 major categories of
deepfake traces that lead humans to identify a video as AI-generated, and train
multimodal language models (LMs) as reward models to mimic human judgments and
localizations. On DeeptraceReward, our 7B reward model outperforms GPT-5 by
34.7% on average across fake clue identification, grounding, and explanation.
Interestingly, we observe a consistent difficulty gradient: binary fake v.s.
real classification is substantially easier than fine-grained deepfake trace
detection; within the latter, performance degrades from natural language
explanations (easiest), to spatial grounding, to temporal labeling (hardest).
By foregrounding human-perceived deepfake traces, DeeptraceReward provides a
rigorous testbed and training signal for socially aware and trustworthy video
generation.