ChatPaper.aiChatPaper

PhysGame : Découverte des violations du bon sens physique dans les vidéos de gameplay

PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos

December 2, 2024
Auteurs: Meng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang
cs.AI

Résumé

Les récentes avancées dans les modèles de langage à grande échelle basés sur la vidéo (Video LLMs) ont vu émerger des capacités diverses pour raisonner et interpréter le contenu visuel dynamique. Parmi celles-ci, les vidéos de gameplay se distinguent en tant que source de données particulière, contenant souvent des anomalies qui défient le bon sens physique. Cette caractéristique en fait un banc d'essai efficace pour évaluer la capacité peu explorée de compréhension du bon sens physique dans les Video LLMs. Dans cet article, nous proposons PhysGame comme un banc d'essai novateur pour évaluer les violations du bon sens physique dans les vidéos de gameplay. PhysGame comprend 880 vidéos associées à des anomalies couvrant quatre domaines fondamentaux (c'est-à-dire, la mécanique, la cinématique, l'optique et les propriétés des matériaux) et à travers 12 bons sens physiques distincts. En évaluant de manière approfondie divers Video LLMs de pointe, nos résultats révèlent que les performances des Video LLMs open source actuels sont nettement inférieures à celles des homologues propriétaires. Pour combler cet écart, nous constituons un ensemble de données d'accord d'instructions, PhysInstruct, avec 140 057 paires question-réponse pour faciliter l'apprentissage du bon sens physique. De plus, nous proposons également un ensemble de données d'optimisation des préférences, PhysDPO, avec 34 358 paires d'entraînement, où les réponses non préférées sont générées en fonction de titres trompeurs (c'est-à-dire, piratage des métadonnées), de moins d'images (c'est-à-dire, piratage temporel) et de résolutions spatiales plus faibles (c'est-à-dire, piratage spatial). Sur la base de la série d'ensembles de données, nous proposons PhysVLM comme un Video LLM enrichi de connaissances physiques. Des expériences approfondies à la fois sur le banc d'essai orienté vers la physique PhysGame et sur les bancs d'essai généraux de compréhension vidéo démontrent les performances de pointe de PhysVLM.
English
Recent advancements in video-based large language models (Video LLMs) have witnessed the emergence of diverse capabilities to reason and interpret dynamic visual content. Among them, gameplay videos stand out as a distinctive data source, often containing glitches that defy physics commonsense. This characteristic renders them an effective benchmark for assessing the under-explored capability of physical commonsense understanding in video LLMs. In this paper, we propose PhysGame as a pioneering benchmark to evaluate physical commonsense violations in gameplay videos. PhysGame comprises 880 videos associated with glitches spanning four fundamental domains (i.e., mechanics, kinematics, optics, and material properties) and across 12 distinct physical commonsense. Through extensively evaluating various state-ofthe-art video LLMs, our findings reveal that the performance of current open-source video LLMs significantly lags behind that of proprietary counterparts. To bridge this gap, we curate an instruction tuning dataset PhysInstruct with 140,057 question-answering pairs to facilitate physical commonsense learning. In addition, we also propose a preference optimization dataset PhysDPO with 34,358 training pairs, where the dis-preferred responses are generated conditioned on misleading titles (i.e., meta information hacking), fewer frames (i.e., temporal hacking) and lower spatial resolutions (i.e., spatial hacking). Based on the suite of datasets, we propose PhysVLM as a physical knowledge-enhanced video LLM. Extensive experiments on both physical-oriented benchmark PhysGame and general video understanding benchmarks demonstrate the state-ofthe-art performance of PhysVLM.

Summary

AI-Generated Summary

PDF62December 3, 2024