PhysGame: Het blootleggen van fysieke gezond verstand schendingen in gameplay video's
PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos
December 2, 2024
Auteurs: Meng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang
cs.AI
Samenvatting
Recente ontwikkelingen in op video gebaseerde grote taalmodellen (Video LLM's) hebben de opkomst gezien van diverse mogelijkheden om dynamische visuele inhoud te redeneren en interpreteren. Onder hen vallen gameplayvideo's op als een onderscheidende gegevensbron, vaak met glitches die de natuurkundige gezond verstand tarten. Deze eigenschap maakt ze een effectieve benchmark voor het beoordelen van de onderbelichte mogelijkheid van begrip van natuurkundig gezond verstand in video LLM's. In dit artikel stellen we PhysGame voor als een baanbrekende benchmark om fysieke gezond verstandsschendingen in gameplayvideo's te evalueren. PhysGame bestaat uit 880 video's met glitches die vier fundamentele domeinen bestrijken (mechanica, kinematica, optica en materiaaleigenschappen) en twaalf verschillende fysieke gezond verstandssituaties. Uitgebreide evaluaties van verschillende state-of-the-art video LLM's tonen aan dat de prestaties van huidige open-source video LLM's aanzienlijk achterblijven bij die van eigen tegenhangers. Om deze kloof te overbruggen, stellen we een instructietuningdataset PhysInstruct samen met 140.057 vraag-antwoordparen om het leren van fysiek gezond verstand te vergemakkelijken. Daarnaast stellen we ook een voorkeurs optimalisatiedataset PhysDPO voor met 34.358 trainingsparen, waarbij de niet-geprefereerde antwoorden worden gegenereerd op basis van misleidende titels (d.w.z. metainformatie manipulatie), minder frames (d.w.z. tijdelijke manipulatie) en lagere ruimtelijke resoluties (d.w.z. ruimtelijke manipulatie). Op basis van de reeks datasets stellen we PhysVLM voor als een fysiek kennisversterkt video LLM. Uitgebreide experimenten op zowel het fysiek georiënteerde benchmark PhysGame als algemene video begripsbenchmarks tonen de state-of-the-art prestaties van PhysVLM aan.
English
Recent advancements in video-based large language models (Video LLMs) have
witnessed the emergence of diverse capabilities to reason and interpret dynamic
visual content. Among them, gameplay videos stand out as a distinctive data
source, often containing glitches that defy physics commonsense. This
characteristic renders them an effective benchmark for assessing the
under-explored capability of physical commonsense understanding in video LLMs.
In this paper, we propose PhysGame as a pioneering benchmark to evaluate
physical commonsense violations in gameplay videos. PhysGame comprises 880
videos associated with glitches spanning four fundamental domains (i.e.,
mechanics, kinematics, optics, and material properties) and across 12 distinct
physical commonsense. Through extensively evaluating various state-ofthe-art
video LLMs, our findings reveal that the performance of current open-source
video LLMs significantly lags behind that of proprietary counterparts. To
bridge this gap, we curate an instruction tuning dataset PhysInstruct with
140,057 question-answering pairs to facilitate physical commonsense learning.
In addition, we also propose a preference optimization dataset PhysDPO with
34,358 training pairs, where the dis-preferred responses are generated
conditioned on misleading titles (i.e., meta information hacking), fewer frames
(i.e., temporal hacking) and lower spatial resolutions (i.e., spatial hacking).
Based on the suite of datasets, we propose PhysVLM as a physical
knowledge-enhanced video LLM. Extensive experiments on both physical-oriented
benchmark PhysGame and general video understanding benchmarks demonstrate the
state-ofthe-art performance of PhysVLM.