WISA: Assistente de Simulação Mundial para Geração de Vídeo a partir de Texto com Consciência Física
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation
March 11, 2025
Autores: Jing Wang, Ao Ma, Ke Cao, Jun Zheng, Zhanjie Zhang, Jiasong Feng, Shanyuan Liu, Yuhang Ma, Bo Cheng, Dawei Leng, Yuhui Yin, Xiaodan Liang
cs.AI
Resumo
Os recentes avanços rápidos na geração de texto para vídeo (T2V), como SoRA e Kling, mostraram grande potencial para a construção de simuladores de mundo. No entanto, os modelos atuais de T2V lutam para compreender princípios físicos abstratos e gerar vídeos que aderem às leis físicas. Esse desafio surge principalmente da falta de orientação clara sobre informações físicas, devido a uma lacuna significativa entre princípios físicos abstratos e modelos de geração. Para isso, introduzimos o Assistente de Simulador de Mundo (WISA), uma estrutura eficaz para decompor e incorporar princípios físicos em modelos T2V. Especificamente, o WISA decompõe princípios físicos em descrições textuais de física, categorias físicas qualitativas e propriedades físicas quantitativas. Para incorporar efetivamente esses atributos físicos no processo de geração, o WISA incorpora vários designs-chave, incluindo a Atenção de Mistura de Especialistas Físicos (MoPA) e um Classificador Físico, aprimorando a consciência física do modelo. Além disso, a maioria dos conjuntos de dados existentes apresenta vídeos onde os fenômenos físicos são fracamente representados ou entrelaçados com múltiplos processos co-ocorrentes, limitando sua adequação como recursos dedicados para aprender princípios físicos explícitos. Propomos um novo conjunto de dados de vídeo, WISA-32K, coletado com base em categorias físicas qualitativas. Ele consiste em 32.000 vídeos, representando 17 leis físicas em três domínios da física: dinâmica, termodinâmica e óptica. Os resultados experimentais demonstram que o WISA pode efetivamente melhorar a compatibilidade dos modelos T2V com as leis físicas do mundo real, alcançando uma melhoria considerável no benchmark VideoPhy. As exibições visuais do WISA e do WISA-32K estão disponíveis em https://360cvgroup.github.io/WISA/.
English
Recent rapid advancements in text-to-video (T2V) generation, such as SoRA and
Kling, have shown great potential for building world simulators. However,
current T2V models struggle to grasp abstract physical principles and generate
videos that adhere to physical laws. This challenge arises primarily from a
lack of clear guidance on physical information due to a significant gap between
abstract physical principles and generation models. To this end, we introduce
the World Simulator Assistant (WISA), an effective framework for decomposing
and incorporating physical principles into T2V models. Specifically, WISA
decomposes physical principles into textual physical descriptions, qualitative
physical categories, and quantitative physical properties. To effectively embed
these physical attributes into the generation process, WISA incorporates
several key designs, including Mixture-of-Physical-Experts Attention (MoPA) and
a Physical Classifier, enhancing the model's physics awareness. Furthermore,
most existing datasets feature videos where physical phenomena are either
weakly represented or entangled with multiple co-occurring processes, limiting
their suitability as dedicated resources for learning explicit physical
principles. We propose a novel video dataset, WISA-32K, collected based on
qualitative physical categories. It consists of 32,000 videos, representing 17
physical laws across three domains of physics: dynamics, thermodynamics, and
optics. Experimental results demonstrate that WISA can effectively enhance the
compatibility of T2V models with real-world physical laws, achieving a
considerable improvement on the VideoPhy benchmark. The visual exhibitions of
WISA and WISA-32K are available in the https://360cvgroup.github.io/WISA/.Summary
AI-Generated Summary