WISA: Мировой Симулятор-Ассистент для Физически Осознанной Генерации Видео из Текста
WISA: World Simulator Assistant for Physics-Aware Text-to-Video Generation
March 11, 2025
Авторы: Jing Wang, Ao Ma, Ke Cao, Jun Zheng, Zhanjie Zhang, Jiasong Feng, Shanyuan Liu, Yuhang Ma, Bo Cheng, Dawei Leng, Yuhui Yin, Xiaodan Liang
cs.AI
Аннотация
Недавние быстрые достижения в области генерации текста в видео (T2V), такие как SoRA и Kling, продемонстрировали значительный потенциал для создания симуляторов мира. Однако современные модели T2V испытывают трудности с пониманием абстрактных физических принципов и созданием видео, соответствующих законам физики. Эта проблема возникает в основном из-за отсутствия четкого руководства по физической информации, что обусловлено значительным разрывом между абстрактными физическими принципами и моделями генерации. В связи с этим мы представляем World Simulator Assistant (WISA) — эффективную структуру для декомпозиции и интеграции физических принципов в модели T2V. В частности, WISA разбивает физические принципы на текстовые физические описания, качественные физические категории и количественные физические свойства. Для эффективного внедрения этих физических атрибутов в процесс генерации WISA включает несколько ключевых разработок, таких как внимание Mixture-of-Physical-Experts (MoPA) и Физический классификатор, что повышает осведомленность модели о физических законах. Кроме того, большинство существующих наборов данных содержат видео, где физические явления либо слабо представлены, либо переплетены с множеством одновременных процессов, что ограничивает их пригодность в качестве специализированных ресурсов для изучения явных физических принципов. Мы предлагаем новый набор видео WISA-32K, собранный на основе качественных физических категорий. Он состоит из 32 000 видео, представляющих 17 физических законов в трех областях физики: динамика, термодинамика и оптика. Экспериментальные результаты показывают, что WISA может эффективно повысить совместимость моделей T2V с реальными физическими законами, достигнув значительного улучшения на бенчмарке VideoPhy. Визуальные демонстрации WISA и WISA-32K доступны по адресу https://360cvgroup.github.io/WISA/.
English
Recent rapid advancements in text-to-video (T2V) generation, such as SoRA and
Kling, have shown great potential for building world simulators. However,
current T2V models struggle to grasp abstract physical principles and generate
videos that adhere to physical laws. This challenge arises primarily from a
lack of clear guidance on physical information due to a significant gap between
abstract physical principles and generation models. To this end, we introduce
the World Simulator Assistant (WISA), an effective framework for decomposing
and incorporating physical principles into T2V models. Specifically, WISA
decomposes physical principles into textual physical descriptions, qualitative
physical categories, and quantitative physical properties. To effectively embed
these physical attributes into the generation process, WISA incorporates
several key designs, including Mixture-of-Physical-Experts Attention (MoPA) and
a Physical Classifier, enhancing the model's physics awareness. Furthermore,
most existing datasets feature videos where physical phenomena are either
weakly represented or entangled with multiple co-occurring processes, limiting
their suitability as dedicated resources for learning explicit physical
principles. We propose a novel video dataset, WISA-32K, collected based on
qualitative physical categories. It consists of 32,000 videos, representing 17
physical laws across three domains of physics: dynamics, thermodynamics, and
optics. Experimental results demonstrate that WISA can effectively enhance the
compatibility of T2V models with real-world physical laws, achieving a
considerable improvement on the VideoPhy benchmark. The visual exhibitions of
WISA and WISA-32K are available in the https://360cvgroup.github.io/WISA/.Summary
AI-Generated Summary