Objekte zum Leben erwecken: Generierung in 4D aus 3D-Objekten
Bringing Objects to Life: 4D generation from 3D objects
December 29, 2024
Autoren: Ohad Rahamim, Ori Malca, Dvir Samuel, Gal Chechik
cs.AI
Zusammenfassung
Neueste Fortschritte in der generativen Modellierung ermöglichen nun die Erstellung von 4D-Inhalten (bewegliche 3D-Objekte), die mit Texteingaben gesteuert werden. Die 4D-Generierung birgt großes Potenzial in Anwendungen wie virtuellen Welten, Medien und Spielen, jedoch bieten bestehende Methoden nur eine begrenzte Kontrolle über das Aussehen und die Geometrie der generierten Inhalte. In dieser Arbeit stellen wir eine Methode zur Animation von vom Benutzer bereitgestellten 3D-Objekten vor, die durch textuelle Eingaben zur Steuerung der 4D-Generierung führt, wodurch benutzerdefinierte Animationen ermöglicht werden, während die Identität des Originalobjekts erhalten bleibt. Zunächst wandeln wir ein 3D-Gitter in ein "statisches" 4D-Neural Radiance Field (NeRF) um, das die visuellen Merkmale des Eingabeobjekts bewahrt. Anschließend animieren wir das Objekt mithilfe eines Bild-zu-Video-Diffusionsmodells, das durch Text gesteuert wird. Zur Verbesserung der Bewegungsrealität führen wir ein inkrementelles Blickwinkelauswahlprotokoll zur Auswahl von Perspektiven ein, um lebensechte Bewegungen zu fördern, sowie einen maskierten Score Distillation Sampling (SDS)-Verlust, der Aufmerksamkeitskarten nutzt, um die Optimierung auf relevante Regionen zu fokussieren. Wir evaluieren unser Modell hinsichtlich zeitlicher Kohärenz, Einhaltung der Eingabeaufforderungen und visueller Treue und stellen fest, dass unsere Methode Baselines, die auf anderen Ansätzen basieren, übertrifft, indem sie bis zu dreifache Verbesserungen bei der Identitätserhaltung erzielt, gemessen an LPIPS-Werten, und visuelle Qualität effektiv mit dynamischen Inhalten ausbalanciert.
English
Recent advancements in generative modeling now enable the creation of 4D
content (moving 3D objects) controlled with text prompts. 4D generation has
large potential in applications like virtual worlds, media, and gaming, but
existing methods provide limited control over the appearance and geometry of
generated content. In this work, we introduce a method for animating
user-provided 3D objects by conditioning on textual prompts to guide 4D
generation, enabling custom animations while maintaining the identity of the
original object. We first convert a 3D mesh into a ``static" 4D Neural Radiance
Field (NeRF) that preserves the visual attributes of the input object. Then, we
animate the object using an Image-to-Video diffusion model driven by text. To
improve motion realism, we introduce an incremental viewpoint selection
protocol for sampling perspectives to promote lifelike movement and a masked
Score Distillation Sampling (SDS) loss, which leverages attention maps to focus
optimization on relevant regions. We evaluate our model in terms of temporal
coherence, prompt adherence, and visual fidelity and find that our method
outperforms baselines that are based on other approaches, achieving up to
threefold improvements in identity preservation measured using LPIPS scores,
and effectively balancing visual quality with dynamic content.Summary
AI-Generated Summary