Dando vida a los objetos: generación 4D a partir de objetos 3D
Bringing Objects to Life: 4D generation from 3D objects
December 29, 2024
Autores: Ohad Rahamim, Ori Malca, Dvir Samuel, Gal Chechik
cs.AI
Resumen
Los avances recientes en modelado generativo ahora permiten la creación de contenido 4D (objetos 3D en movimiento) controlado con indicaciones de texto. La generación 4D tiene un gran potencial en aplicaciones como mundos virtuales, medios de comunicación y videojuegos, pero los métodos existentes ofrecen un control limitado sobre la apariencia y geometría del contenido generado. En este trabajo, presentamos un método para animar objetos 3D proporcionados por el usuario condicionados a indicaciones textuales para guiar la generación 4D, permitiendo animaciones personalizadas manteniendo la identidad del objeto original. Primero convertimos una malla 3D en un Campo de Radiancia Neural (NeRF) "estático" 4D que conserva los atributos visuales del objeto de entrada. Luego, animamos el objeto utilizando un modelo de difusión de Imagen a Video impulsado por texto. Para mejorar la realismo del movimiento, introducimos un protocolo incremental de selección de puntos de vista para muestrear perspectivas que promuevan un movimiento natural y una pérdida de Muestreo de Destilación de Puntuación enmascarada (SDS), que aprovecha mapas de atención para enfocar la optimización en regiones relevantes. Evaluamos nuestro modelo en términos de coherencia temporal, adherencia a las indicaciones y fidelidad visual y encontramos que nuestro método supera a los baselines basados en otros enfoques, logrando mejoras de hasta tres veces en la preservación de la identidad medida mediante puntuaciones LPIPS, y equilibrando eficazmente la calidad visual con el contenido dinámico.
English
Recent advancements in generative modeling now enable the creation of 4D
content (moving 3D objects) controlled with text prompts. 4D generation has
large potential in applications like virtual worlds, media, and gaming, but
existing methods provide limited control over the appearance and geometry of
generated content. In this work, we introduce a method for animating
user-provided 3D objects by conditioning on textual prompts to guide 4D
generation, enabling custom animations while maintaining the identity of the
original object. We first convert a 3D mesh into a ``static" 4D Neural Radiance
Field (NeRF) that preserves the visual attributes of the input object. Then, we
animate the object using an Image-to-Video diffusion model driven by text. To
improve motion realism, we introduce an incremental viewpoint selection
protocol for sampling perspectives to promote lifelike movement and a masked
Score Distillation Sampling (SDS) loss, which leverages attention maps to focus
optimization on relevant regions. We evaluate our model in terms of temporal
coherence, prompt adherence, and visual fidelity and find that our method
outperforms baselines that are based on other approaches, achieving up to
threefold improvements in identity preservation measured using LPIPS scores,
and effectively balancing visual quality with dynamic content.Summary
AI-Generated Summary