PhysGame: Выявление нарушений физического здравого смысла в видеороликах игрового процесса
PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos
December 2, 2024
Авторы: Meng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang
cs.AI
Аннотация
Недавние достижения в области видео-ориентированных крупных языковых моделей (Video LLMs) привели к появлению разнообразных возможностей для рассуждения и интерпретации динамического визуального контента. Среди них видеоролики игрового процесса выделяются как характерный источник данных, часто содержащий ошибки, которые противоречат физическому здравому смыслу. Эта особенность делает их эффективным бенчмарком для оценки недостаточно изученной способности понимания физического здравого смысла в видео LLMs. В данной статье мы предлагаем PhysGame в качестве первоначального бенчмарка для оценки нарушений физического здравого смысла в видеороликах игрового процесса. PhysGame включает 880 видеороликов с ошибками, охватывающими четыре основных области (механику, кинематику, оптику и свойства материалов) и 12 различных аспектов физического здравого смысла. После тщательной оценки различных передовых видео LLMs наши результаты показывают, что производительность текущих открытых видео LLMs значительно отстает от закрытых аналогов. Для устранения этой разницы мы создаем набор данных для настройки инструкций PhysInstruct с 140 057 вопросами-ответами для облегчения обучения физическому здравому смыслу. Кроме того, мы также предлагаем набор данных для оптимизации предпочтений PhysDPO с 34 358 обучающими парами, где нежелательные ответы генерируются на основе вводных заголовков (т.е. взлом метаинформации), меньшего количества кадров (т.е. временной взлом) и более низких пространственных разрешений (т.е. пространственный взлом). На основе набора данных мы предлагаем PhysVLM как видео LLM, обогащенную физическими знаниями. Обширные эксперименты как на физически ориентированном бенчмарке PhysGame, так и на общих бенчмарках понимания видео демонстрируют передовую производительность PhysVLM.
English
Recent advancements in video-based large language models (Video LLMs) have
witnessed the emergence of diverse capabilities to reason and interpret dynamic
visual content. Among them, gameplay videos stand out as a distinctive data
source, often containing glitches that defy physics commonsense. This
characteristic renders them an effective benchmark for assessing the
under-explored capability of physical commonsense understanding in video LLMs.
In this paper, we propose PhysGame as a pioneering benchmark to evaluate
physical commonsense violations in gameplay videos. PhysGame comprises 880
videos associated with glitches spanning four fundamental domains (i.e.,
mechanics, kinematics, optics, and material properties) and across 12 distinct
physical commonsense. Through extensively evaluating various state-ofthe-art
video LLMs, our findings reveal that the performance of current open-source
video LLMs significantly lags behind that of proprietary counterparts. To
bridge this gap, we curate an instruction tuning dataset PhysInstruct with
140,057 question-answering pairs to facilitate physical commonsense learning.
In addition, we also propose a preference optimization dataset PhysDPO with
34,358 training pairs, where the dis-preferred responses are generated
conditioned on misleading titles (i.e., meta information hacking), fewer frames
(i.e., temporal hacking) and lower spatial resolutions (i.e., spatial hacking).
Based on the suite of datasets, we propose PhysVLM as a physical
knowledge-enhanced video LLM. Extensive experiments on both physical-oriented
benchmark PhysGame and general video understanding benchmarks demonstrate the
state-ofthe-art performance of PhysVLM.Summary
AI-Generated Summary