Objekte zum Leben erwecken: Generierung in 4D aus 3D-ObjektenBringing Objects to Life: 4D generation from 3D objects
Neueste Fortschritte in der generativen Modellierung ermöglichen nun die Erstellung von 4D-Inhalten (bewegliche 3D-Objekte), die mit Texteingaben gesteuert werden. Die 4D-Generierung birgt großes Potenzial in Anwendungen wie virtuellen Welten, Medien und Spielen, jedoch bieten bestehende Methoden nur eine begrenzte Kontrolle über das Aussehen und die Geometrie der generierten Inhalte. In dieser Arbeit stellen wir eine Methode zur Animation von vom Benutzer bereitgestellten 3D-Objekten vor, die durch textuelle Eingaben zur Steuerung der 4D-Generierung führt, wodurch benutzerdefinierte Animationen ermöglicht werden, während die Identität des Originalobjekts erhalten bleibt. Zunächst wandeln wir ein 3D-Gitter in ein "statisches" 4D-Neural Radiance Field (NeRF) um, das die visuellen Merkmale des Eingabeobjekts bewahrt. Anschließend animieren wir das Objekt mithilfe eines Bild-zu-Video-Diffusionsmodells, das durch Text gesteuert wird. Zur Verbesserung der Bewegungsrealität führen wir ein inkrementelles Blickwinkelauswahlprotokoll zur Auswahl von Perspektiven ein, um lebensechte Bewegungen zu fördern, sowie einen maskierten Score Distillation Sampling (SDS)-Verlust, der Aufmerksamkeitskarten nutzt, um die Optimierung auf relevante Regionen zu fokussieren. Wir evaluieren unser Modell hinsichtlich zeitlicher Kohärenz, Einhaltung der Eingabeaufforderungen und visueller Treue und stellen fest, dass unsere Methode Baselines, die auf anderen Ansätzen basieren, übertrifft, indem sie bis zu dreifache Verbesserungen bei der Identitätserhaltung erzielt, gemessen an LPIPS-Werten, und visuelle Qualität effektiv mit dynamischen Inhalten ausbalanciert.