ChatPaper.aiChatPaper

Human4DiT: Generación de videos humanos en vista libre con Transformador de Difusión 4D

Human4DiT: Free-view Human Video Generation with 4D Diffusion Transformer

May 27, 2024
Autores: Ruizhi Shao, Youxin Pang, Zerong Zheng, Jingxiang Sun, Yebin Liu
cs.AI

Resumen

Presentamos un enfoque novedoso para generar videos humanos de alta calidad y coherencia espacio-temporal a partir de una sola imagen bajo puntos de vista arbitrarios. Nuestro marco combina las fortalezas de las U-Nets para la inyección precisa de condiciones y los transformadores de difusión para capturar correlaciones globales entre puntos de vista y tiempo. El núcleo es una arquitectura en cascada de transformadores 4D que factoriza la atención a través de vistas, tiempo y dimensiones espaciales, permitiendo un modelado eficiente del espacio 4D. La condición precisa se logra inyectando la identidad humana, los parámetros de la cámara y las señales temporales en los transformadores respectivos. Para entrenar este modelo, hemos creado un conjunto de datos multidimensional que abarca imágenes, videos, datos multivista y escaneos 3D/4D, junto con una estrategia de entrenamiento multidimensional. Nuestro enfoque supera las limitaciones de métodos anteriores basados en GAN o modelos de difusión basados en U-Net, que tienen dificultades con movimientos complejos y cambios de punto de vista. A través de experimentos exhaustivos, demostramos la capacidad de nuestro método para sintetizar videos humanos realistas, coherentes y de vista libre, allanando el camino para aplicaciones multimedia avanzadas en áreas como la realidad virtual y la animación. Nuestro sitio web del proyecto es https://human4dit.github.io.
English
We present a novel approach for generating high-quality, spatio-temporally coherent human videos from a single image under arbitrary viewpoints. Our framework combines the strengths of U-Nets for accurate condition injection and diffusion transformers for capturing global correlations across viewpoints and time. The core is a cascaded 4D transformer architecture that factorizes attention across views, time, and spatial dimensions, enabling efficient modeling of the 4D space. Precise conditioning is achieved by injecting human identity, camera parameters, and temporal signals into the respective transformers. To train this model, we curate a multi-dimensional dataset spanning images, videos, multi-view data and 3D/4D scans, along with a multi-dimensional training strategy. Our approach overcomes the limitations of previous methods based on GAN or UNet-based diffusion models, which struggle with complex motions and viewpoint changes. Through extensive experiments, we demonstrate our method's ability to synthesize realistic, coherent and free-view human videos, paving the way for advanced multimedia applications in areas such as virtual reality and animation. Our project website is https://human4dit.github.io.

Summary

AI-Generated Summary

PDF170December 12, 2024