WISA: Asistente de Simulación Mundial para la Generación de Videos a partir de Texto con Conciencia Física

Resumen

Los recientes y rápidos avances en la generación de texto a video (T2V), como SoRA y Kling, han demostrado un gran potencial para construir simuladores del mundo. Sin embargo, los modelos actuales de T2V tienen dificultades para comprender principios físicos abstractos y generar videos que se ajusten a las leyes físicas. Este desafío surge principalmente de la falta de una guía clara sobre la información física debido a una brecha significativa entre los principios físicos abstractos y los modelos de generación. Para abordar esto, presentamos el Asistente de Simulador del Mundo (WISA, por sus siglas en inglés), un marco efectivo para descomponer e incorporar principios físicos en los modelos T2V. Específicamente, WISA descompone los principios físicos en descripciones físicas textuales, categorías físicas cualitativas y propiedades físicas cuantitativas. Para integrar eficazmente estos atributos físicos en el proceso de generación, WISA incorpora varios diseños clave, incluyendo la Atención de Mezcla de Expertos Físicos (MoPA) y un Clasificador Físico, mejorando la conciencia física del modelo. Además, la mayoría de los conjuntos de datos existentes presentan videos donde los fenómenos físicos están débilmente representados o entrelazados con múltiples procesos concurrentes, lo que limita su idoneidad como recursos dedicados para aprender principios físicos explícitos. Proponemos un nuevo conjunto de datos de video, WISA-32K, recopilado en base a categorías físicas cualitativas. Consta de 32,000 videos, que representan 17 leyes físicas en tres dominios de la física: dinámica, termodinámica y óptica. Los resultados experimentales demuestran que WISA puede mejorar efectivamente la compatibilidad de los modelos T2V con las leyes físicas del mundo real, logrando una mejora considerable en el benchmark VideoPhy. Las exhibiciones visuales de WISA y WISA-32K están disponibles en https://360cvgroup.github.io/WISA/.

English

Recent rapid advancements in text-to-video (T2V) generation, such as SoRA and Kling, have shown great potential for building world simulators. However, current T2V models struggle to grasp abstract physical principles and generate videos that adhere to physical laws. This challenge arises primarily from a lack of clear guidance on physical information due to a significant gap between abstract physical principles and generation models. To this end, we introduce the World Simulator Assistant (WISA), an effective framework for decomposing and incorporating physical principles into T2V models. Specifically, WISA decomposes physical principles into textual physical descriptions, qualitative physical categories, and quantitative physical properties. To effectively embed these physical attributes into the generation process, WISA incorporates several key designs, including Mixture-of-Physical-Experts Attention (MoPA) and a Physical Classifier, enhancing the model's physics awareness. Furthermore, most existing datasets feature videos where physical phenomena are either weakly represented or entangled with multiple co-occurring processes, limiting their suitability as dedicated resources for learning explicit physical principles. We propose a novel video dataset, WISA-32K, collected based on qualitative physical categories. It consists of 32,000 videos, representing 17 physical laws across three domains of physics: dynamics, thermodynamics, and optics. Experimental results demonstrate that WISA can effectively enhance the compatibility of T2V models with real-world physical laws, achieving a considerable improvement on the VideoPhy benchmark. The visual exhibitions of WISA and WISA-32K are available in the https://360cvgroup.github.io/WISA/.

WISA: Asistente de Simulación Mundial para la Generación de Videos a partir de Texto con Conciencia Física

WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation

Resumen

Support