PhysGame: Descobrindo Violações de Senso Comum Físico em Vídeos de Jogabilidade
PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos
December 2, 2024
Autores: Meng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang
cs.AI
Resumo
Os avanços recentes em modelos de linguagem baseados em vídeo (Video LLMs) testemunharam o surgimento de diversas capacidades para raciocinar e interpretar conteúdo visual dinâmico. Entre eles, os vídeos de jogabilidade se destacam como uma fonte de dados distinta, frequentemente contendo falhas que desafiam o senso comum da física. Essa característica os torna um benchmark eficaz para avaliar a capacidade pouco explorada de compreensão do senso comum físico em Video LLMs. Neste artigo, propomos o PhysGame como um benchmark pioneiro para avaliar violações do senso comum físico em vídeos de jogabilidade. O PhysGame é composto por 880 vídeos associados a falhas que abrangem quatro domínios fundamentais (ou seja, mecânica, cinemática, óptica e propriedades de materiais) e abrange 12 senso comum físico distintos. Ao avaliar extensivamente diversos Video LLMs de ponta, nossas descobertas revelam que o desempenho dos atuais Video LLMs de código aberto fica significativamente atrás dos concorrentes proprietários. Para preencher essa lacuna, criamos um conjunto de dados de ajuste de instruções, o PhysInstruct, com 140.057 pares de perguntas e respostas para facilitar a aprendizagem do senso comum físico. Além disso, também propomos um conjunto de dados de otimização de preferências, o PhysDPO, com 34.358 pares de treinamento, onde as respostas não preferidas são geradas condicionadas a títulos enganosos (ou seja, hacking de informações meta), menos frames (ou seja, hacking temporal) e menores resoluções espaciais (ou seja, hacking espacial). Com base no conjunto de conjuntos de dados, propomos o PhysVLM como um Video LLM aprimorado com conhecimento físico. Experimentos extensivos tanto no benchmark orientado fisicamente PhysGame quanto em benchmarks gerais de compreensão de vídeo demonstram o desempenho de ponta do PhysVLM.
English
Recent advancements in video-based large language models (Video LLMs) have
witnessed the emergence of diverse capabilities to reason and interpret dynamic
visual content. Among them, gameplay videos stand out as a distinctive data
source, often containing glitches that defy physics commonsense. This
characteristic renders them an effective benchmark for assessing the
under-explored capability of physical commonsense understanding in video LLMs.
In this paper, we propose PhysGame as a pioneering benchmark to evaluate
physical commonsense violations in gameplay videos. PhysGame comprises 880
videos associated with glitches spanning four fundamental domains (i.e.,
mechanics, kinematics, optics, and material properties) and across 12 distinct
physical commonsense. Through extensively evaluating various state-ofthe-art
video LLMs, our findings reveal that the performance of current open-source
video LLMs significantly lags behind that of proprietary counterparts. To
bridge this gap, we curate an instruction tuning dataset PhysInstruct with
140,057 question-answering pairs to facilitate physical commonsense learning.
In addition, we also propose a preference optimization dataset PhysDPO with
34,358 training pairs, where the dis-preferred responses are generated
conditioned on misleading titles (i.e., meta information hacking), fewer frames
(i.e., temporal hacking) and lower spatial resolutions (i.e., spatial hacking).
Based on the suite of datasets, we propose PhysVLM as a physical
knowledge-enhanced video LLM. Extensive experiments on both physical-oriented
benchmark PhysGame and general video understanding benchmarks demonstrate the
state-ofthe-art performance of PhysVLM.Summary
AI-Generated Summary