WISA: Wereldsimulatorassistent voor fysica-bewuste tekst-naar-videogeneratie
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation
March 11, 2025
Auteurs: Jing Wang, Ao Ma, Ke Cao, Jun Zheng, Zhanjie Zhang, Jiasong Feng, Shanyuan Liu, Yuhang Ma, Bo Cheng, Dawei Leng, Yuhui Yin, Xiaodan Liang
cs.AI
Samenvatting
Recente snelle vooruitgang in tekst-naar-video (T2V) generatie, zoals SoRA en Kling, heeft groot potentieel getoond voor het bouwen van wereld-simulatoren. Huidige T2V-modellen hebben echter moeite met het begrijpen van abstracte fysische principes en het genereren van video's die voldoen aan fysische wetten. Deze uitdaging ontstaat voornamelijk door een gebrek aan duidelijke begeleiding over fysische informatie, veroorzaakt door een aanzienlijke kloof tussen abstracte fysische principes en generatiemodellen. Daarom introduceren we de World Simulator Assistant (WISA), een effectief raamwerk voor het ontleden en integreren van fysische principes in T2V-modellen. Specifiek deelt WISA fysische principes op in tekstuele fysische beschrijvingen, kwalitatieve fysische categorieën en kwantitatieve fysische eigenschappen. Om deze fysische attributen effectief in het generatieproces in te bedden, bevat WISA verschillende sleutelontwerpen, waaronder Mixture-of-Physical-Experts Attention (MoPA) en een Physical Classifier, die het fysica-bewustzijn van het model vergroten. Bovendien bevatten de meeste bestaande datasets video's waarin fysische verschijnselen zwak worden weergegeven of verweven zijn met meerdere gelijktijdige processen, wat hun geschiktheid als toegewijde bronnen voor het leren van expliciete fysische principes beperkt. We stellen een nieuwe videodataset voor, WISA-32K, die is verzameld op basis van kwalitatieve fysische categorieën. Deze bestaat uit 32.000 video's, die 17 fysische wetten vertegenwoordigen binnen drie domeinen van de fysica: dynamica, thermodynamica en optica. Experimentele resultaten tonen aan dat WISA de compatibiliteit van T2V-modellen met fysische wetten uit de echte wereld effectief kan verbeteren, wat resulteert in een aanzienlijke verbetering op de VideoPhy-benchmark. De visuele presentaties van WISA en WISA-32K zijn beschikbaar op https://360cvgroup.github.io/WISA/.
English
Recent rapid advancements in text-to-video (T2V) generation, such as SoRA and
Kling, have shown great potential for building world simulators. However,
current T2V models struggle to grasp abstract physical principles and generate
videos that adhere to physical laws. This challenge arises primarily from a
lack of clear guidance on physical information due to a significant gap between
abstract physical principles and generation models. To this end, we introduce
the World Simulator Assistant (WISA), an effective framework for decomposing
and incorporating physical principles into T2V models. Specifically, WISA
decomposes physical principles into textual physical descriptions, qualitative
physical categories, and quantitative physical properties. To effectively embed
these physical attributes into the generation process, WISA incorporates
several key designs, including Mixture-of-Physical-Experts Attention (MoPA) and
a Physical Classifier, enhancing the model's physics awareness. Furthermore,
most existing datasets feature videos where physical phenomena are either
weakly represented or entangled with multiple co-occurring processes, limiting
their suitability as dedicated resources for learning explicit physical
principles. We propose a novel video dataset, WISA-32K, collected based on
qualitative physical categories. It consists of 32,000 videos, representing 17
physical laws across three domains of physics: dynamics, thermodynamics, and
optics. Experimental results demonstrate that WISA can effectively enhance the
compatibility of T2V models with real-world physical laws, achieving a
considerable improvement on the VideoPhy benchmark. The visual exhibitions of
WISA and WISA-32K are available in the https://360cvgroup.github.io/WISA/.Summary
AI-Generated Summary