Naar Fysiek Begrip in Video Generatie: Een 3D Punt Regularisatie Benadering
Towards Physical Understanding in Video Generation: A 3D Point Regularization Approach
February 5, 2025
Auteurs: Yunuo Chen, Junli Cao, Anil Kag, Vidit Goel, Sergei Korolev, Chenfanfu Jiang, Sergey Tulyakov, Jian Ren
cs.AI
Samenvatting
We presenteren een nieuw kader voor videogeneratie dat 3-dimensionale geometrie en dynamisch bewustzijn integreert. Om dit te bereiken, verrijken we 2D-video's met 3D-punttrajecten en alignen ze in pixelruimte. Het resulterende 3D-bewuste videodataset, PointVid, wordt vervolgens gebruikt om een latent diffusiemodel fijn af te stemmen, waardoor het in staat is om 2D-objecten te volgen met 3D-Cartesische coördinaten. Voortbouwend hierop reguleren we de vorm en beweging van objecten in de video om ongewenste artefacten te elimineren, zoals niet-fysieke vervorming. Als gevolg hiervan verbeteren we de kwaliteit van gegenereerde RGB-video's en verminderen we veelvoorkomende problemen zoals objectvervorming, die veel voorkomen in huidige videomodellen vanwege een gebrek aan vormbewustzijn. Met onze 3D-verrijking en regulering is ons model in staat om contactrijke scenario's zoals taakgerichte video's aan te pakken. Deze video's omvatten complexe interacties van vaste stoffen, waarbij 3D-informatie essentieel is voor het waarnemen van vervorming en contact. Bovendien verbetert ons model de algehele kwaliteit van videogeneratie door de 3D-consistentie van bewegende objecten te bevorderen en abrupte veranderingen in vorm en beweging te verminderen.
English
We present a novel video generation framework that integrates 3-dimensional
geometry and dynamic awareness. To achieve this, we augment 2D videos with 3D
point trajectories and align them in pixel space. The resulting 3D-aware video
dataset, PointVid, is then used to fine-tune a latent diffusion model, enabling
it to track 2D objects with 3D Cartesian coordinates. Building on this, we
regularize the shape and motion of objects in the video to eliminate undesired
artifacts, \eg, nonphysical deformation. Consequently, we enhance the quality
of generated RGB videos and alleviate common issues like object morphing, which
are prevalent in current video models due to a lack of shape awareness. With
our 3D augmentation and regularization, our model is capable of handling
contact-rich scenarios such as task-oriented videos. These videos involve
complex interactions of solids, where 3D information is essential for
perceiving deformation and contact. Furthermore, our model improves the overall
quality of video generation by promoting the 3D consistency of moving objects
and reducing abrupt changes in shape and motion.Summary
AI-Generated Summary