Objekte zum Leben erwecken: Generierung in 4D aus 3D-Objekten

papers.abstract

Neueste Fortschritte in der generativen Modellierung ermöglichen nun die Erstellung von 4D-Inhalten (bewegliche 3D-Objekte), die mit Texteingaben gesteuert werden. Die 4D-Generierung birgt großes Potenzial in Anwendungen wie virtuellen Welten, Medien und Spielen, jedoch bieten bestehende Methoden nur eine begrenzte Kontrolle über das Aussehen und die Geometrie der generierten Inhalte. In dieser Arbeit stellen wir eine Methode zur Animation von vom Benutzer bereitgestellten 3D-Objekten vor, die durch textuelle Eingaben zur Steuerung der 4D-Generierung führt, wodurch benutzerdefinierte Animationen ermöglicht werden, während die Identität des Originalobjekts erhalten bleibt. Zunächst wandeln wir ein 3D-Gitter in ein "statisches" 4D-Neural Radiance Field (NeRF) um, das die visuellen Merkmale des Eingabeobjekts bewahrt. Anschließend animieren wir das Objekt mithilfe eines Bild-zu-Video-Diffusionsmodells, das durch Text gesteuert wird. Zur Verbesserung der Bewegungsrealität führen wir ein inkrementelles Blickwinkelauswahlprotokoll zur Auswahl von Perspektiven ein, um lebensechte Bewegungen zu fördern, sowie einen maskierten Score Distillation Sampling (SDS)-Verlust, der Aufmerksamkeitskarten nutzt, um die Optimierung auf relevante Regionen zu fokussieren. Wir evaluieren unser Modell hinsichtlich zeitlicher Kohärenz, Einhaltung der Eingabeaufforderungen und visueller Treue und stellen fest, dass unsere Methode Baselines, die auf anderen Ansätzen basieren, übertrifft, indem sie bis zu dreifache Verbesserungen bei der Identitätserhaltung erzielt, gemessen an LPIPS-Werten, und visuelle Qualität effektiv mit dynamischen Inhalten ausbalanciert.

English

Recent advancements in generative modeling now enable the creation of 4D content (moving 3D objects) controlled with text prompts. 4D generation has large potential in applications like virtual worlds, media, and gaming, but existing methods provide limited control over the appearance and geometry of generated content. In this work, we introduce a method for animating user-provided 3D objects by conditioning on textual prompts to guide 4D generation, enabling custom animations while maintaining the identity of the original object. We first convert a 3D mesh into a ``static" 4D Neural Radiance Field (NeRF) that preserves the visual attributes of the input object. Then, we animate the object using an Image-to-Video diffusion model driven by text. To improve motion realism, we introduce an incremental viewpoint selection protocol for sampling perspectives to promote lifelike movement and a masked Score Distillation Sampling (SDS) loss, which leverages attention maps to focus optimization on relevant regions. We evaluate our model in terms of temporal coherence, prompt adherence, and visual fidelity and find that our method outperforms baselines that are based on other approaches, achieving up to threefold improvements in identity preservation measured using LPIPS scores, and effectively balancing visual quality with dynamic content.

Objekte zum Leben erwecken: Generierung in 4D aus 3D-Objekten

Bringing Objects to Life: 4D generation from 3D objects

papers.abstract

Support