ChatPaper.aiChatPaper

PhysGame: 게임 플레이 비디오에서 물리적 상식 위반 해결하기

PhysGame: Uncovering Physical Commonsense Violations in Gameplay Videos

December 2, 2024
저자: Meng Cao, Haoran Tang, Haoze Zhao, Hangyu Guo, Jiaheng Liu, Ge Zhang, Ruyang Liu, Qiang Sun, Ian Reid, Xiaodan Liang
cs.AI

초록

최근 비디오 기반 대규모 언어 모델(Video LLMs)의 발전은 동적 시각적 콘텐츠를 추론하고 해석하는 다양한 능력의 등장을 목격했습니다. 그 중에서도 게임 플레이 비디오는 물리학적 상식을 무시하는 결함을 포함하는 독특한 데이터 원천으로 돋보입니다. 이러한 특성으로 인해 그들은 비디오 LLMs의 물리적 상식 이해 역량을 평가하기 위한 효과적인 기준으로 작용합니다. 본 논문에서는 게임 플레이 비디오에서 물리적 상식 위반을 평가하기 위한 선도적인 기준으로 PhysGame을 제안합니다. PhysGame은 4가지 기본 영역(즉, 기계학, 운동학, 광학 및 물성)을 넘나드는 결함을 포함하는 880개의 비디오로 구성되어 있으며, 12가지 다양한 물리적 상식을 포함합니다. 다양한 최첨단 비디오 LLMs를 철저히 평가한 결과, 현재의 오픈 소스 비디오 LLMs의 성능이 전용 상대들에 비해 상당히 뒤처지는 것으로 나타났습니다. 이 격차를 줄이기 위해, 물리적 상식 학습을 용이하게 하는 140,057개의 질문-답변 쌍으로 이루어진 PhysInstruct 지시 튜닝 데이터셋을 만들었습니다. 또한, 메타 정보 해킹(즉, 잘못된 제목에 의한 생성), 시간 해킹(즉, 프레임 부족) 및 공간 해킹(즉, 공간 해킹)에 의존하여 생성된 34,358개의 훈련 쌍을 포함하는 선호도 최적화 데이터셋 PhysDPO를 제안합니다. 이러한 데이터셋 스위트를 기반으로, 물리적 지식이 향상된 비디오 LLM인 PhysVLM을 제안합니다. 물리적 지향적 벤치마크 PhysGame 및 일반 비디오 이해 벤치마크에 대한 광범위한 실험은 PhysVLM의 최첨단 성능을 입증합니다.
English
Recent advancements in video-based large language models (Video LLMs) have witnessed the emergence of diverse capabilities to reason and interpret dynamic visual content. Among them, gameplay videos stand out as a distinctive data source, often containing glitches that defy physics commonsense. This characteristic renders them an effective benchmark for assessing the under-explored capability of physical commonsense understanding in video LLMs. In this paper, we propose PhysGame as a pioneering benchmark to evaluate physical commonsense violations in gameplay videos. PhysGame comprises 880 videos associated with glitches spanning four fundamental domains (i.e., mechanics, kinematics, optics, and material properties) and across 12 distinct physical commonsense. Through extensively evaluating various state-ofthe-art video LLMs, our findings reveal that the performance of current open-source video LLMs significantly lags behind that of proprietary counterparts. To bridge this gap, we curate an instruction tuning dataset PhysInstruct with 140,057 question-answering pairs to facilitate physical commonsense learning. In addition, we also propose a preference optimization dataset PhysDPO with 34,358 training pairs, where the dis-preferred responses are generated conditioned on misleading titles (i.e., meta information hacking), fewer frames (i.e., temporal hacking) and lower spatial resolutions (i.e., spatial hacking). Based on the suite of datasets, we propose PhysVLM as a physical knowledge-enhanced video LLM. Extensive experiments on both physical-oriented benchmark PhysGame and general video understanding benchmarks demonstrate the state-ofthe-art performance of PhysVLM.

Summary

AI-Generated Summary

PDF62December 3, 2024