ChatPaper.aiChatPaper

Vidu4D: Einzelnes generiertes Video zur hochwertigen 4D-Rekonstruktion mit dynamischen Gauß'schen Surfels

Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels

May 27, 2024
Autoren: Yikai Wang, Xinzhou Wang, Zilong Chen, Zhengyi Wang, Fuchun Sun, Jun Zhu
cs.AI

Zusammenfassung

Video-generative Modelle erhalten besondere Aufmerksamkeit aufgrund ihrer Fähigkeit, realistische und einfallsreiche Frames zu generieren. Darüber hinaus wird beobachtet, dass diese Modelle auch eine starke 3D-Konsistenz aufweisen, was ihre Potenzial als Welt-Simulatoren erheblich verbessert. In dieser Arbeit präsentieren wir Vidu4D, ein neuartiges Rekonstruktionsmodell, das sich durch die präzise Rekonstruktion von 4D (d. h. sequenzielle 3D) Darstellungen aus einzelnen generierten Videos auszeichnet und dabei Herausforderungen im Zusammenhang mit Nicht-Rigidität und Frame-Verzerrung angeht. Diese Fähigkeit ist entscheidend für die Erstellung hochwertiger virtueller Inhalte, die sowohl räumliche als auch zeitliche Kohärenz bewahren. Im Kern von Vidu4D steht unsere vorgeschlagene Dynamische Gaußsche Surfels (DGS) Technik. DGS optimiert zeitlich variierende Verzerrungsfunktionen, um Gaußsche Surfels (Oberflächenelemente) von einem statischen Zustand in einen dynamisch verzerrten Zustand zu transformieren. Diese Transformation ermöglicht eine präzise Darstellung von Bewegung und Verformung im Laufe der Zeit. Um die strukturelle Integrität der oberflächenangepassten Gaußschen Surfels zu bewahren, entwerfen wir die geometrische Regularisierung im verzerrten Zustand basierend auf kontinuierlichen Verzerrungsfeldern zur Schätzung von Normalen. Darüber hinaus erlernen wir Verfeinerungen an Rotations- und Skalierungsparametern der Gaußschen Surfels, was das Texturflimmern während des Verzerrungsprozesses erheblich reduziert und die Erfassung feingliedriger Erscheinungsdetails verbessert. Vidu4D enthält auch einen neuartigen Initialisierungszustand, der einen geeigneten Start für die Verzerrungsfelder in DGS bietet. Durch die Ausstattung von Vidu4D mit einem bestehenden Video-generativen Modell zeigt das Gesamtrahmenwerk eine hochwertige Text-zu-4D-Generierung sowohl im Erscheinungsbild als auch in der Geometrie.
English
Video generative models are receiving particular attention given their ability to generate realistic and imaginative frames. Besides, these models are also observed to exhibit strong 3D consistency, significantly enhancing their potential to act as world simulators. In this work, we present Vidu4D, a novel reconstruction model that excels in accurately reconstructing 4D (i.e., sequential 3D) representations from single generated videos, addressing challenges associated with non-rigidity and frame distortion. This capability is pivotal for creating high-fidelity virtual contents that maintain both spatial and temporal coherence. At the core of Vidu4D is our proposed Dynamic Gaussian Surfels (DGS) technique. DGS optimizes time-varying warping functions to transform Gaussian surfels (surface elements) from a static state to a dynamically warped state. This transformation enables a precise depiction of motion and deformation over time. To preserve the structural integrity of surface-aligned Gaussian surfels, we design the warped-state geometric regularization based on continuous warping fields for estimating normals. Additionally, we learn refinements on rotation and scaling parameters of Gaussian surfels, which greatly alleviates texture flickering during the warping process and enhances the capture of fine-grained appearance details. Vidu4D also contains a novel initialization state that provides a proper start for the warping fields in DGS. Equipping Vidu4D with an existing video generative model, the overall framework demonstrates high-fidelity text-to-4D generation in both appearance and geometry.

Summary

AI-Generated Summary

PDF123December 12, 2024