ChatPaper.aiChatPaper

WISA: 物理法則を考慮したテキストからビデオ生成のための世界シミュレータアシスタント

WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation

March 11, 2025
著者: Jing Wang, Ao Ma, Ke Cao, Jun Zheng, Zhanjie Zhang, Jiasong Feng, Shanyuan Liu, Yuhang Ma, Bo Cheng, Dawei Leng, Yuhui Yin, Xiaodan Liang
cs.AI

要旨

近年、SoRAやKlingなどのテキストからビデオを生成する(T2V)技術の急速な進展により、世界シミュレータの構築に大きな可能性が示されています。しかし、現在のT2Vモデルは抽象的な物理法則を理解し、物理法則に従ったビデオを生成することに苦戦しています。この課題は主に、抽象的な物理法則と生成モデルの間に存在する大きなギャップにより、物理情報に関する明確なガイダンスが欠如していることに起因しています。この問題に対処するため、私たちはWorld Simulator Assistant(WISA)を導入しました。WISAは、物理法則を分解し、T2Vモデルに組み込むための効果的なフレームワークです。具体的には、WISAは物理法則をテキストによる物理記述、定性的な物理カテゴリ、および定量的な物理特性に分解します。これらの物理属性を生成プロセスに効果的に埋め込むために、WISAはMixture-of-Physical-Experts Attention(MoPA)やPhysical Classifierなどの重要な設計を組み込んでおり、モデルの物理認識を強化します。さらに、既存のデータセットの多くは、物理現象が弱く表現されているか、複数の同時発生プロセスと絡み合っているビデオを特徴としており、明示的な物理法則を学ぶための専用リソースとしての適性が限られています。私たちは、定性的な物理カテゴリに基づいて収集された新しいビデオデータセット、WISA-32Kを提案します。このデータセットは、動力学、熱力学、光学の3つの物理領域にわたる17の物理法則を表す32,000のビデオで構成されています。実験結果は、WISAがT2Vモデルの現実世界の物理法則との互換性を効果的に向上させ、VideoPhyベンチマークで大幅な改善を達成できることを示しています。WISAとWISA-32Kの視覚的な展示は、https://360cvgroup.github.io/WISA/でご覧いただけます。
English
Recent rapid advancements in text-to-video (T2V) generation, such as SoRA and Kling, have shown great potential for building world simulators. However, current T2V models struggle to grasp abstract physical principles and generate videos that adhere to physical laws. This challenge arises primarily from a lack of clear guidance on physical information due to a significant gap between abstract physical principles and generation models. To this end, we introduce the World Simulator Assistant (WISA), an effective framework for decomposing and incorporating physical principles into T2V models. Specifically, WISA decomposes physical principles into textual physical descriptions, qualitative physical categories, and quantitative physical properties. To effectively embed these physical attributes into the generation process, WISA incorporates several key designs, including Mixture-of-Physical-Experts Attention (MoPA) and a Physical Classifier, enhancing the model's physics awareness. Furthermore, most existing datasets feature videos where physical phenomena are either weakly represented or entangled with multiple co-occurring processes, limiting their suitability as dedicated resources for learning explicit physical principles. We propose a novel video dataset, WISA-32K, collected based on qualitative physical categories. It consists of 32,000 videos, representing 17 physical laws across three domains of physics: dynamics, thermodynamics, and optics. Experimental results demonstrate that WISA can effectively enhance the compatibility of T2V models with real-world physical laws, achieving a considerable improvement on the VideoPhy benchmark. The visual exhibitions of WISA and WISA-32K are available in the https://360cvgroup.github.io/WISA/.

Summary

AI-Generated Summary

PDF32March 18, 2025