ChatPaper.aiChatPaper

Donner vie aux objets : génération en 4D à partir d'objets en 3D

Bringing Objects to Life: 4D generation from 3D objects

December 29, 2024
Auteurs: Ohad Rahamim, Ori Malca, Dvir Samuel, Gal Chechik
cs.AI

Résumé

Les récents progrès en modélisation générative permettent désormais la création de contenu 4D (objets 3D en mouvement) contrôlé par des instructions textuelles. La génération 4D présente un grand potentiel dans des applications telles que les mondes virtuels, les médias et les jeux, mais les méthodes existantes offrent un contrôle limité sur l'apparence et la géométrie du contenu généré. Dans ce travail, nous introduisons une méthode pour animer des objets 3D fournis par l'utilisateur en conditionnant sur des instructions textuelles pour guider la génération 4D, permettant des animations personnalisées tout en préservant l'identité de l'objet d'origine. Nous convertissons d'abord un maillage 3D en un champ de radiance neurale 4D "statique" (NeRF) qui préserve les attributs visuels de l'objet d'entrée. Ensuite, nous animons l'objet en utilisant un modèle de diffusion d'image-vidéo piloté par du texte. Pour améliorer le réalisme du mouvement, nous introduisons un protocole incrémental de sélection de points de vue pour échantillonner des perspectives afin de favoriser un mouvement réaliste et une perte de distillation de score masquée (SDS), qui exploite des cartes d'attention pour concentrer l'optimisation sur les régions pertinentes. Nous évaluons notre modèle en termes de cohérence temporelle, d'adhérence aux instructions et de fidélité visuelle et constatons que notre méthode surpasse les références basées sur d'autres approches, atteignant jusqu'à trois fois d'améliorations dans la préservation de l'identité mesurée à l'aide des scores LPIPS, et équilibrant efficacement la qualité visuelle avec le contenu dynamique.
English
Recent advancements in generative modeling now enable the creation of 4D content (moving 3D objects) controlled with text prompts. 4D generation has large potential in applications like virtual worlds, media, and gaming, but existing methods provide limited control over the appearance and geometry of generated content. In this work, we introduce a method for animating user-provided 3D objects by conditioning on textual prompts to guide 4D generation, enabling custom animations while maintaining the identity of the original object. We first convert a 3D mesh into a ``static" 4D Neural Radiance Field (NeRF) that preserves the visual attributes of the input object. Then, we animate the object using an Image-to-Video diffusion model driven by text. To improve motion realism, we introduce an incremental viewpoint selection protocol for sampling perspectives to promote lifelike movement and a masked Score Distillation Sampling (SDS) loss, which leverages attention maps to focus optimization on relevant regions. We evaluate our model in terms of temporal coherence, prompt adherence, and visual fidelity and find that our method outperforms baselines that are based on other approaches, achieving up to threefold improvements in identity preservation measured using LPIPS scores, and effectively balancing visual quality with dynamic content.

Summary

AI-Generated Summary

PDF422December 31, 2024