ChatPaper.aiChatPaper

PhysGame: Descubriendo Violaciones de Sentido Común Físico en Videos de Juegos

PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos

December 2, 2024
Autores: Meng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang
cs.AI

Resumen

Los recientes avances en modelos de lenguaje basados en video (Video LLMs) han presenciado la aparición de diversas capacidades para razonar e interpretar contenido visual dinámico. Entre ellos, los videos de juegos destacan como una fuente de datos distintiva, a menudo conteniendo fallas que desafían el sentido común de la física. Esta característica los convierte en un banco de pruebas efectivo para evaluar la capacidad poco explorada de comprensión del sentido común físico en los Video LLMs. En este documento, proponemos PhysGame como un banco de pruebas pionero para evaluar violaciones del sentido común físico en videos de juegos. PhysGame consta de 880 videos asociados con fallas que abarcan cuatro dominios fundamentales (es decir, mecánica, cinemática, óptica y propiedades de los materiales) y abarcan 12 sentidos comunes físicos distintos. A través de la evaluación exhaustiva de varios Video LLMs de última generación, nuestros hallazgos revelan que el rendimiento de los Video LLMs de código abierto actuales se encuentra significativamente rezagado con respecto a sus contrapartes propietarias. Para cerrar esta brecha, creamos un conjunto de datos de ajuste de instrucciones, PhysInstruct, con 140,057 pares de preguntas y respuestas para facilitar el aprendizaje del sentido común físico. Además, también proponemos un conjunto de datos de optimización de preferencias, PhysDPO, con 34,358 pares de entrenamiento, donde las respuestas no preferidas se generan condicionadas a títulos engañosos (es decir, hackeo de información meta), menos fotogramas (es decir, hackeo temporal) y menores resoluciones espaciales (es decir, hackeo espacial). Basándonos en la serie de conjuntos de datos, proponemos PhysVLM como un Video LLM mejorado con conocimiento físico. Experimentos extensos tanto en el banco de pruebas orientado físicamente PhysGame como en bancos de pruebas generales de comprensión de video demuestran el rendimiento de vanguardia de PhysVLM.
English
Recent advancements in video-based large language models (Video LLMs) have witnessed the emergence of diverse capabilities to reason and interpret dynamic visual content. Among them, gameplay videos stand out as a distinctive data source, often containing glitches that defy physics commonsense. This characteristic renders them an effective benchmark for assessing the under-explored capability of physical commonsense understanding in video LLMs. In this paper, we propose PhysGame as a pioneering benchmark to evaluate physical commonsense violations in gameplay videos. PhysGame comprises 880 videos associated with glitches spanning four fundamental domains (i.e., mechanics, kinematics, optics, and material properties) and across 12 distinct physical commonsense. Through extensively evaluating various state-ofthe-art video LLMs, our findings reveal that the performance of current open-source video LLMs significantly lags behind that of proprietary counterparts. To bridge this gap, we curate an instruction tuning dataset PhysInstruct with 140,057 question-answering pairs to facilitate physical commonsense learning. In addition, we also propose a preference optimization dataset PhysDPO with 34,358 training pairs, where the dis-preferred responses are generated conditioned on misleading titles (i.e., meta information hacking), fewer frames (i.e., temporal hacking) and lower spatial resolutions (i.e., spatial hacking). Based on the suite of datasets, we propose PhysVLM as a physical knowledge-enhanced video LLM. Extensive experiments on both physical-oriented benchmark PhysGame and general video understanding benchmarks demonstrate the state-ofthe-art performance of PhysVLM.

Summary

AI-Generated Summary

PDF62December 3, 2024