ChatPaper.aiChatPaper

Objecten tot leven brengen: 4D-generatie van 3D-objecten

Bringing Objects to Life: 4D generation from 3D objects

December 29, 2024
Auteurs: Ohad Rahamim, Ori Malca, Dvir Samuel, Gal Chechik
cs.AI

Samenvatting

Recente ontwikkelingen in generatieve modellering maken nu de creatie van 4D-inhoud (bewegende 3D-objecten) mogelijk die wordt aangestuurd met tekstprompts. 4D-generatie heeft veel potentieel in toepassingen zoals virtuele werelden, media en gaming, maar bestaande methoden bieden beperkte controle over het uiterlijk en de geometrie van gegenereerde inhoud. In dit werk introduceren we een methode voor het animeren van door de gebruiker verstrekte 3D-objecten door te conditioneren op tekstuele prompts om 4D-generatie te begeleiden, waardoor aangepaste animaties mogelijk zijn terwijl de identiteit van het oorspronkelijke object behouden blijft. We zetten eerst een 3D-mesh om in een "statische" 4D Neural Radiance Field (NeRF) die de visuele kenmerken van het invoerobject behoudt. Vervolgens animeren we het object met behulp van een Image-to-Video-diffusiemodel aangestuurd door tekst. Om de bewegingsrealiteit te verbeteren, introduceren we een incrementeel gezichtspuntselectieprotocol voor het monsteren van perspectieven om levensechte beweging te bevorderen, en een gemaskerd Score Distillation Sampling (SDS) verlies, dat aandachtskaarten benut om optimalisatie te richten op relevante regio's. We evalueren ons model op het gebied van temporele coherentie, naleving van prompts en visuele getrouwheid en constateren dat onze methode beter presteert dan baselines die zijn gebaseerd op andere benaderingen, met tot wel drievoudige verbeteringen in identiteitsbehoud gemeten met LPIPS-scores, en effectief balanceren van visuele kwaliteit met dynamische inhoud.
English
Recent advancements in generative modeling now enable the creation of 4D content (moving 3D objects) controlled with text prompts. 4D generation has large potential in applications like virtual worlds, media, and gaming, but existing methods provide limited control over the appearance and geometry of generated content. In this work, we introduce a method for animating user-provided 3D objects by conditioning on textual prompts to guide 4D generation, enabling custom animations while maintaining the identity of the original object. We first convert a 3D mesh into a ``static" 4D Neural Radiance Field (NeRF) that preserves the visual attributes of the input object. Then, we animate the object using an Image-to-Video diffusion model driven by text. To improve motion realism, we introduce an incremental viewpoint selection protocol for sampling perspectives to promote lifelike movement and a masked Score Distillation Sampling (SDS) loss, which leverages attention maps to focus optimization on relevant regions. We evaluate our model in terms of temporal coherence, prompt adherence, and visual fidelity and find that our method outperforms baselines that are based on other approaches, achieving up to threefold improvements in identity preservation measured using LPIPS scores, and effectively balancing visual quality with dynamic content.

Summary

AI-Generated Summary

PDF422December 31, 2024