ChatPaper.aiChatPaper

WISA: 물리 인식 텍스트-비디오 생성을 위한 세계 시뮬레이터 어시스턴트

WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation

March 11, 2025
저자: Jing Wang, Ao Ma, Ke Cao, Jun Zheng, Zhanjie Zhang, Jiasong Feng, Shanyuan Liu, Yuhang Ma, Bo Cheng, Dawei Leng, Yuhui Yin, Xiaodan Liang
cs.AI

초록

최근 SoRA와 Kling과 같은 텍스트-투-비디오(T2V) 생성 기술의 급속한 발전은 세계 시뮬레이터 구축에 큰 잠재력을 보여주고 있습니다. 그러나 현재의 T2V 모델들은 추상적인 물리 법칙을 이해하고 물리 법칙을 준수하는 비디오를 생성하는 데 어려움을 겪고 있습니다. 이 문제는 주로 추상적인 물리 법칙과 생성 모델 간의 상당한 간격으로 인해 물리 정보에 대한 명확한 지침이 부족하기 때문에 발생합니다. 이를 해결하기 위해, 우리는 물리 법칙을 분해하고 T2V 모델에 통합하는 효과적인 프레임워크인 World Simulator Assistant(WISA)를 소개합니다. 구체적으로, WISA는 물리 법칙을 텍스트 기반 물리 설명, 정성적 물리 범주, 그리고 정량적 물리 속성으로 분해합니다. 이러한 물리 속성을 생성 과정에 효과적으로 포함시키기 위해, WISA는 Mixture-of-Physical-Experts Attention(MoPA)과 Physical Classifier를 포함한 여러 주요 설계를 도입하여 모델의 물리 인식을 강화합니다. 또한, 기존 데이터셋 대부분은 물리 현상이 약하게 표현되거나 여러 동시 발생 과정과 얽혀 있는 비디오를 포함하고 있어, 명시적인 물리 법칙을 학습하기 위한 전용 리소스로서의 적합성이 제한적입니다. 우리는 정성적 물리 범주를 기반으로 수집된 새로운 비디오 데이터셋인 WISA-32K를 제안합니다. 이 데이터셋은 동역학, 열역학, 광학의 세 가지 물리 영역에 걸친 17가지 물리 법칙을 나타내는 32,000개의 비디오로 구성됩니다. 실험 결과는 WISA가 T2V 모델의 실제 물리 법칙과의 호환성을 효과적으로 향상시키며, VideoPhy 벤치마크에서 상당한 개선을 달성할 수 있음을 보여줍니다. WISA와 WISA-32K의 시각적 예시는 https://360cvgroup.github.io/WISA/에서 확인할 수 있습니다.
English
Recent rapid advancements in text-to-video (T2V) generation, such as SoRA and Kling, have shown great potential for building world simulators. However, current T2V models struggle to grasp abstract physical principles and generate videos that adhere to physical laws. This challenge arises primarily from a lack of clear guidance on physical information due to a significant gap between abstract physical principles and generation models. To this end, we introduce the World Simulator Assistant (WISA), an effective framework for decomposing and incorporating physical principles into T2V models. Specifically, WISA decomposes physical principles into textual physical descriptions, qualitative physical categories, and quantitative physical properties. To effectively embed these physical attributes into the generation process, WISA incorporates several key designs, including Mixture-of-Physical-Experts Attention (MoPA) and a Physical Classifier, enhancing the model's physics awareness. Furthermore, most existing datasets feature videos where physical phenomena are either weakly represented or entangled with multiple co-occurring processes, limiting their suitability as dedicated resources for learning explicit physical principles. We propose a novel video dataset, WISA-32K, collected based on qualitative physical categories. It consists of 32,000 videos, representing 17 physical laws across three domains of physics: dynamics, thermodynamics, and optics. Experimental results demonstrate that WISA can effectively enhance the compatibility of T2V models with real-world physical laws, achieving a considerable improvement on the VideoPhy benchmark. The visual exhibitions of WISA and WISA-32K are available in the https://360cvgroup.github.io/WISA/.

Summary

AI-Generated Summary

PDF32March 18, 2025