WISA : Assistant Simulateur Mondial pour la Génération de Vidéos à partir de Texte avec Conscience Physique

papers.abstract

Les avancées récentes et rapides dans la génération de texte-à-vidéo (T2V), telles que SoRA et Kling, ont montré un grand potentiel pour la construction de simulateurs de mondes. Cependant, les modèles T2V actuels peinent à saisir les principes physiques abstraits et à générer des vidéos conformes aux lois physiques. Ce défi découle principalement d'un manque de guidance claire sur les informations physiques, en raison d'un écart significatif entre les principes physiques abstraits et les modèles de génération. Pour remédier à cela, nous introduisons le World Simulator Assistant (WISA), un cadre efficace pour décomposer et intégrer les principes physiques dans les modèles T2V. Concrètement, WISA décompose les principes physiques en descriptions textuelles physiques, catégories physiques qualitatives et propriétés physiques quantitatives. Pour intégrer efficacement ces attributs physiques dans le processus de génération, WISA intègre plusieurs conceptions clés, notamment l'attention Mixture-of-Physical-Experts (MoPA) et un Classificateur Physique, améliorant ainsi la conscience physique du modèle. Par ailleurs, la plupart des jeux de données existants présentent des vidéos où les phénomènes physiques sont soit faiblement représentés, soit entremêlés avec plusieurs processus concomitants, limitant leur adéquation en tant que ressources dédiées à l'apprentissage de principes physiques explicites. Nous proposons un nouveau jeu de données vidéo, WISA-32K, collecté sur la base de catégories physiques qualitatives. Il se compose de 32 000 vidéos, représentant 17 lois physiques à travers trois domaines de la physique : la dynamique, la thermodynamique et l'optique. Les résultats expérimentaux démontrent que WISA peut efficacement améliorer la compatibilité des modèles T2V avec les lois physiques du monde réel, obtenant une amélioration considérable sur le benchmark VideoPhy. Les démonstrations visuelles de WISA et WISA-32K sont disponibles sur https://360cvgroup.github.io/WISA/.

English

Recent rapid advancements in text-to-video (T2V) generation, such as SoRA and Kling, have shown great potential for building world simulators. However, current T2V models struggle to grasp abstract physical principles and generate videos that adhere to physical laws. This challenge arises primarily from a lack of clear guidance on physical information due to a significant gap between abstract physical principles and generation models. To this end, we introduce the World Simulator Assistant (WISA), an effective framework for decomposing and incorporating physical principles into T2V models. Specifically, WISA decomposes physical principles into textual physical descriptions, qualitative physical categories, and quantitative physical properties. To effectively embed these physical attributes into the generation process, WISA incorporates several key designs, including Mixture-of-Physical-Experts Attention (MoPA) and a Physical Classifier, enhancing the model's physics awareness. Furthermore, most existing datasets feature videos where physical phenomena are either weakly represented or entangled with multiple co-occurring processes, limiting their suitability as dedicated resources for learning explicit physical principles. We propose a novel video dataset, WISA-32K, collected based on qualitative physical categories. It consists of 32,000 videos, representing 17 physical laws across three domains of physics: dynamics, thermodynamics, and optics. Experimental results demonstrate that WISA can effectively enhance the compatibility of T2V models with real-world physical laws, achieving a considerable improvement on the VideoPhy benchmark. The visual exhibitions of WISA and WISA-32K are available in the https://360cvgroup.github.io/WISA/.

WISA : Assistant Simulateur Mondial pour la Génération de Vidéos à partir de Texte avec Conscience Physique

WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation

papers.abstract

Support