WISA: Assistente Simulatore Mondiale per la Generazione di Video da Testo con Consapevolezza Fisica
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation
March 11, 2025
Autori: Jing Wang, Ao Ma, Ke Cao, Jun Zheng, Zhanjie Zhang, Jiasong Feng, Shanyuan Liu, Yuhang Ma, Bo Cheng, Dawei Leng, Yuhui Yin, Xiaodan Liang
cs.AI
Abstract
I recenti e rapidi progressi nella generazione testo-video (T2V), come SoRA e Kling, hanno dimostrato un grande potenziale per la creazione di simulatori del mondo. Tuttavia, gli attuali modelli T2V faticano a comprendere i principi fisici astratti e a generare video che rispettino le leggi della fisica. Questa sfida deriva principalmente dalla mancanza di una guida chiara sulle informazioni fisiche, dovuta a un significativo divario tra i principi fisici astratti e i modelli di generazione. A tal fine, introduciamo il World Simulator Assistant (WISA), un framework efficace per scomporre e incorporare i principi fisici nei modelli T2V. Nello specifico, WISA scompone i principi fisici in descrizioni testuali, categorie qualitative e proprietà quantitative. Per incorporare efficacemente questi attributi fisici nel processo di generazione, WISA include diversi design chiave, come il Mixture-of-Physical-Experts Attention (MoPA) e un Classificatore Fisico, migliorando la consapevolezza fisica del modello. Inoltre, la maggior parte dei dataset esistenti presenta video in cui i fenomeni fisici sono rappresentati in modo debole o intrecciati con più processi co-occorrenti, limitando la loro idoneità come risorse dedicate per l'apprendimento di principi fisici espliciti. Proponiamo un nuovo dataset video, WISA-32K, raccolto in base a categorie fisiche qualitative. Esso consiste di 32.000 video, che rappresentano 17 leggi fisiche in tre domini della fisica: dinamica, termodinamica e ottica. I risultati sperimentali dimostrano che WISA può migliorare efficacemente la compatibilità dei modelli T2V con le leggi fisiche del mondo reale, ottenendo un notevole miglioramento sul benchmark VideoPhy. Le dimostrazioni visive di WISA e WISA-32K sono disponibili su https://360cvgroup.github.io/WISA/.
English
Recent rapid advancements in text-to-video (T2V) generation, such as SoRA and
Kling, have shown great potential for building world simulators. However,
current T2V models struggle to grasp abstract physical principles and generate
videos that adhere to physical laws. This challenge arises primarily from a
lack of clear guidance on physical information due to a significant gap between
abstract physical principles and generation models. To this end, we introduce
the World Simulator Assistant (WISA), an effective framework for decomposing
and incorporating physical principles into T2V models. Specifically, WISA
decomposes physical principles into textual physical descriptions, qualitative
physical categories, and quantitative physical properties. To effectively embed
these physical attributes into the generation process, WISA incorporates
several key designs, including Mixture-of-Physical-Experts Attention (MoPA) and
a Physical Classifier, enhancing the model's physics awareness. Furthermore,
most existing datasets feature videos where physical phenomena are either
weakly represented or entangled with multiple co-occurring processes, limiting
their suitability as dedicated resources for learning explicit physical
principles. We propose a novel video dataset, WISA-32K, collected based on
qualitative physical categories. It consists of 32,000 videos, representing 17
physical laws across three domains of physics: dynamics, thermodynamics, and
optics. Experimental results demonstrate that WISA can effectively enhance the
compatibility of T2V models with real-world physical laws, achieving a
considerable improvement on the VideoPhy benchmark. The visual exhibitions of
WISA and WISA-32K are available in the https://360cvgroup.github.io/WISA/.