PhysGame: Aufdecken von Verletzungen des physikalischen Allgemeinwissens in Gameplay-Videos
PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos
December 2, 2024
Autoren: Meng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte bei Video-basierten großen Sprachmodellen (Video LLMs) das Aufkommen verschiedener Fähigkeiten zur Schlussfolgerung und Interpretation dynamischer visueller Inhalte erlebt. Unter ihnen stechen Gameplay-Videos als eine besondere Datenquelle hervor, die oft Fehler enthält, die dem physikalischen Allgemeinwissen widersprechen. Diese Eigenschaft macht sie zu einem effektiven Maßstab zur Bewertung der noch wenig erforschten Fähigkeit des physikalischen Allgemeinwissensverständnisses in Video LLMs. In diesem Artikel schlagen wir PhysGame als einen wegweisenden Maßstab zur Bewertung von Verstößen gegen das physikalische Allgemeinwissen in Gameplay-Videos vor. PhysGame umfasst 880 Videos mit Fehlern in vier grundlegenden Bereichen (d.h. Mechanik, Kinematik, Optik und Materialeigenschaften) und über 12 verschiedene physikalische Allgemeinwissensbereiche. Durch umfangreiche Evaluierung verschiedener modernster Video LLMs zeigen unsere Ergebnisse, dass die Leistung der aktuellen Open-Source Video LLMs deutlich hinter der proprietärer Gegenstücke zurückbleibt. Um diese Kluft zu überbrücken, erstellen wir einen Anweisungsabstimmungsdatensatz PhysInstruct mit 140.057 Frage-Antwort-Paaren, um das Lernen des physikalischen Allgemeinwissens zu erleichtern. Darüber hinaus schlagen wir auch einen Präferenzoptimierungsdatensatz PhysDPO mit 34.358 Trainingspaaren vor, bei dem die nicht bevorzugten Antworten unter Verwendung von irreführenden Titeln (d.h. Metainformations-Hacking), weniger Frames (d.h. zeitliches Hacking) und niedrigeren räumlichen Auflösungen (d.h. räumliches Hacking) generiert werden. Basierend auf der Reihe von Datensätzen schlagen wir PhysVLM als ein physikalisches Wissens-verbessertes Video LLM vor. Umfangreiche Experimente sowohl auf dem physikorientierten Maßstab PhysGame als auch auf allgemeinen Video-Verständnis-Maßstäben zeigen die modernste Leistung von PhysVLM.
English
Recent advancements in video-based large language models (Video LLMs) have
witnessed the emergence of diverse capabilities to reason and interpret dynamic
visual content. Among them, gameplay videos stand out as a distinctive data
source, often containing glitches that defy physics commonsense. This
characteristic renders them an effective benchmark for assessing the
under-explored capability of physical commonsense understanding in video LLMs.
In this paper, we propose PhysGame as a pioneering benchmark to evaluate
physical commonsense violations in gameplay videos. PhysGame comprises 880
videos associated with glitches spanning four fundamental domains (i.e.,
mechanics, kinematics, optics, and material properties) and across 12 distinct
physical commonsense. Through extensively evaluating various state-ofthe-art
video LLMs, our findings reveal that the performance of current open-source
video LLMs significantly lags behind that of proprietary counterparts. To
bridge this gap, we curate an instruction tuning dataset PhysInstruct with
140,057 question-answering pairs to facilitate physical commonsense learning.
In addition, we also propose a preference optimization dataset PhysDPO with
34,358 training pairs, where the dis-preferred responses are generated
conditioned on misleading titles (i.e., meta information hacking), fewer frames
(i.e., temporal hacking) and lower spatial resolutions (i.e., spatial hacking).
Based on the suite of datasets, we propose PhysVLM as a physical
knowledge-enhanced video LLM. Extensive experiments on both physical-oriented
benchmark PhysGame and general video understanding benchmarks demonstrate the
state-ofthe-art performance of PhysVLM.Summary
AI-Generated Summary