DreamHOI: Onderwerpsgestuurde Generatie van 3D Mens-Object Interacties met Diffusie Priors
DreamHOI: Subject-Driven Generation of 3D Human-Object Interactions with Diffusion Priors
September 12, 2024
Auteurs: Thomas Hanwen Zhu, Ruining Li, Tomas Jakab
cs.AI
Samenvatting
We presenteren DreamHOI, een nieuwe methode voor zero-shot synthese van mens-object interacties (HOIs), waardoor een 3D menselijk model realistisch kan interageren met elk gegeven object op basis van een tekstuele beschrijving. Deze taak wordt gecompliceerd door de variërende categorieën en geometrieën van echte objecten en de schaarste aan datasets die diverse HOIs omvatten. Om de noodzaak van uitgebreide data te omzeilen, maken we gebruik van tekst-naar-afbeelding diffusiemodellen die zijn getraind op miljarden afbeelding-onderschrift paren. We optimaliseren de articulatie van een gehuid menselijk mesh met behulp van Score Distillation Sampling (SDS) gradiënten verkregen uit deze modellen, die afbeeldingsruimte bewerkingen voorspellen. Echter, direct terugpropageren van afbeeldingsruimte gradiënten naar complexe articulatieparameters is ineffectief vanwege de lokale aard van dergelijke gradiënten. Om dit te overwinnen, introduceren we een dubbele impliciete-expliciete representatie van een gehuid mesh, waarbij (impliciete) neurale radiance fields (NeRFs) worden gecombineerd met (expliciete) door skelet aangedreven mesh articulatie. Tijdens de optimalisatie schakelen we tussen impliciete en expliciete vormen, waarbij we de NeRF generatie gronden terwijl we de mesh articulatie verfijnen. We valideren onze aanpak via uitgebreide experimenten, waarbij we de effectiviteit ervan aantonen in het genereren van realistische HOIs.
English
We present DreamHOI, a novel method for zero-shot synthesis of human-object
interactions (HOIs), enabling a 3D human model to realistically interact with
any given object based on a textual description. This task is complicated by
the varying categories and geometries of real-world objects and the scarcity of
datasets encompassing diverse HOIs. To circumvent the need for extensive data,
we leverage text-to-image diffusion models trained on billions of image-caption
pairs. We optimize the articulation of a skinned human mesh using Score
Distillation Sampling (SDS) gradients obtained from these models, which predict
image-space edits. However, directly backpropagating image-space gradients into
complex articulation parameters is ineffective due to the local nature of such
gradients. To overcome this, we introduce a dual implicit-explicit
representation of a skinned mesh, combining (implicit) neural radiance fields
(NeRFs) with (explicit) skeleton-driven mesh articulation. During optimization,
we transition between implicit and explicit forms, grounding the NeRF
generation while refining the mesh articulation. We validate our approach
through extensive experiments, demonstrating its effectiveness in generating
realistic HOIs.Summary
AI-Generated Summary