WISA: Asistente de Simulación Mundial para la Generación de Videos a partir de Texto con Conciencia Física
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation
March 11, 2025
Autores: Jing Wang, Ao Ma, Ke Cao, Jun Zheng, Zhanjie Zhang, Jiasong Feng, Shanyuan Liu, Yuhang Ma, Bo Cheng, Dawei Leng, Yuhui Yin, Xiaodan Liang
cs.AI
Resumen
Los recientes y rápidos avances en la generación de texto a video (T2V), como SoRA y Kling, han demostrado un gran potencial para construir simuladores del mundo. Sin embargo, los modelos actuales de T2V tienen dificultades para comprender principios físicos abstractos y generar videos que se ajusten a las leyes físicas. Este desafío surge principalmente de la falta de una guía clara sobre la información física debido a una brecha significativa entre los principios físicos abstractos y los modelos de generación. Para abordar esto, presentamos el Asistente de Simulador del Mundo (WISA, por sus siglas en inglés), un marco efectivo para descomponer e incorporar principios físicos en los modelos T2V. Específicamente, WISA descompone los principios físicos en descripciones físicas textuales, categorías físicas cualitativas y propiedades físicas cuantitativas. Para integrar eficazmente estos atributos físicos en el proceso de generación, WISA incorpora varios diseños clave, incluyendo la Atención de Mezcla de Expertos Físicos (MoPA) y un Clasificador Físico, mejorando la conciencia física del modelo. Además, la mayoría de los conjuntos de datos existentes presentan videos donde los fenómenos físicos están débilmente representados o entrelazados con múltiples procesos concurrentes, lo que limita su idoneidad como recursos dedicados para aprender principios físicos explícitos. Proponemos un nuevo conjunto de datos de video, WISA-32K, recopilado en base a categorías físicas cualitativas. Consta de 32,000 videos, que representan 17 leyes físicas en tres dominios de la física: dinámica, termodinámica y óptica. Los resultados experimentales demuestran que WISA puede mejorar efectivamente la compatibilidad de los modelos T2V con las leyes físicas del mundo real, logrando una mejora considerable en el benchmark VideoPhy. Las exhibiciones visuales de WISA y WISA-32K están disponibles en https://360cvgroup.github.io/WISA/.
English
Recent rapid advancements in text-to-video (T2V) generation, such as SoRA and
Kling, have shown great potential for building world simulators. However,
current T2V models struggle to grasp abstract physical principles and generate
videos that adhere to physical laws. This challenge arises primarily from a
lack of clear guidance on physical information due to a significant gap between
abstract physical principles and generation models. To this end, we introduce
the World Simulator Assistant (WISA), an effective framework for decomposing
and incorporating physical principles into T2V models. Specifically, WISA
decomposes physical principles into textual physical descriptions, qualitative
physical categories, and quantitative physical properties. To effectively embed
these physical attributes into the generation process, WISA incorporates
several key designs, including Mixture-of-Physical-Experts Attention (MoPA) and
a Physical Classifier, enhancing the model's physics awareness. Furthermore,
most existing datasets feature videos where physical phenomena are either
weakly represented or entangled with multiple co-occurring processes, limiting
their suitability as dedicated resources for learning explicit physical
principles. We propose a novel video dataset, WISA-32K, collected based on
qualitative physical categories. It consists of 32,000 videos, representing 17
physical laws across three domains of physics: dynamics, thermodynamics, and
optics. Experimental results demonstrate that WISA can effectively enhance the
compatibility of T2V models with real-world physical laws, achieving a
considerable improvement on the VideoPhy benchmark. The visual exhibitions of
WISA and WISA-32K are available in the https://360cvgroup.github.io/WISA/.Summary
AI-Generated Summary