ChatPaper.aiChatPaper

Геометрическое принуждение: объединение видеодиффузии и 3D-представлений для согласованного моделирования мира

Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling

July 10, 2025
Авторы: Haoyu Wu, Diankun Wu, Tianyu He, Junliang Guo, Yang Ye, Yueqi Duan, Jiang Bian
cs.AI

Аннотация

Видео по своей природе представляют собой двумерные проекции динамичного трехмерного мира. Однако наш анализ показывает, что модели диффузии видео, обученные исключительно на сырых видеоданных, часто не способны уловить значимую геометрически осознанную структуру в своих изученных представлениях. Чтобы преодолеть этот разрыв между моделями диффузии видео и лежащей в основе трехмерной природой физического мира, мы предлагаем метод Geometry Forcing — простой, но эффективный подход, который побуждает модели диффузии видео усваивать скрытые трехмерные представления. Наше ключевое наблюдение заключается в том, чтобы направлять промежуточные представления модели к геометрически осознанной структуре, выравнивая их с признаками из предварительно обученной геометрической базовой модели. Для этого мы вводим два взаимодополняющих целевых критерия выравнивания: Angular Alignment, который обеспечивает направленную согласованность через косинусное сходство, и Scale Alignment, который сохраняет информацию, связанную с масштабом, путем регрессии ненормализованных геометрических признаков из нормализованного представления диффузии. Мы оцениваем Geometry Forcing на задачах генерации видео с условиями на вид камеры и на действия. Экспериментальные результаты показывают, что наш метод существенно улучшает визуальное качество и трехмерную согласованность по сравнению с базовыми методами. Страница проекта: https://GeometryForcing.github.io.
English
Videos inherently represent 2D projections of a dynamic 3D world. However, our analysis suggests that video diffusion models trained solely on raw video data often fail to capture meaningful geometric-aware structure in their learned representations. To bridge this gap between video diffusion models and the underlying 3D nature of the physical world, we propose Geometry Forcing, a simple yet effective method that encourages video diffusion models to internalize latent 3D representations. Our key insight is to guide the model's intermediate representations toward geometry-aware structure by aligning them with features from a pretrained geometric foundation model. To this end, we introduce two complementary alignment objectives: Angular Alignment, which enforces directional consistency via cosine similarity, and Scale Alignment, which preserves scale-related information by regressing unnormalized geometric features from normalized diffusion representation. We evaluate Geometry Forcing on both camera view-conditioned and action-conditioned video generation tasks. Experimental results demonstrate that our method substantially improves visual quality and 3D consistency over the baseline methods. Project page: https://GeometryForcing.github.io.
PDF232July 11, 2025