DreamHOI: Subjektgesteuerte Generierung von 3D-Mensch-Objekt-Interaktionen mit Diffusionsprioritäten
DreamHOI: Subject-Driven Generation of 3D Human-Object Interactions with Diffusion Priors
September 12, 2024
Autoren: Thomas Hanwen Zhu, Ruining Li, Tomas Jakab
cs.AI
Zusammenfassung
Wir präsentieren DreamHOI, eine innovative Methode zur Null-Shot-Synthese von Mensch-Objekt-Interaktionen (HOIs), die es einem 3D-Menschmodell ermöglicht, realistisch mit einem beliebigen Objekt basierend auf einer textuellen Beschreibung zu interagieren. Diese Aufgabe wird durch die unterschiedlichen Kategorien und Geometrien realer Objekte sowie die Knappheit von Datensätzen, die vielfältige HOIs umfassen, kompliziert. Um aufwendige Datensammlungen zu umgehen, greifen wir auf Text-zu-Bild-Diffusionsmodelle zurück, die auf Milliarden von Bildunterschriften-Paaren trainiert wurden. Wir optimieren die Artikulation eines skalierten menschlichen Netzes unter Verwendung von Score Distillation Sampling (SDS)-Gradienten, die von diesen Modellen erhalten werden und Bildraum-Änderungen vorhersagen. Direktes Rückpropagieren von Bildraum-Gradienten in komplexe Artikulationsparameter ist aufgrund der lokalen Natur solcher Gradienten ineffektiv. Um dies zu überwinden, führen wir eine duale implizit-explicit Repräsentation eines skalierten Netzes ein, die (implizite) neuronale Strahlungsfelder (NeRFs) mit (expliziter) skelettgesteuerter Netzartikulation kombiniert. Während der Optimierung wechseln wir zwischen impliziten und expliziten Formen und verankern die NeRF-Generierung, während wir die Netzartikulation verfeinern. Wir validieren unseren Ansatz durch umfangreiche Experimente, die seine Wirksamkeit bei der Erzeugung realistischer HOIs zeigen.
English
We present DreamHOI, a novel method for zero-shot synthesis of human-object
interactions (HOIs), enabling a 3D human model to realistically interact with
any given object based on a textual description. This task is complicated by
the varying categories and geometries of real-world objects and the scarcity of
datasets encompassing diverse HOIs. To circumvent the need for extensive data,
we leverage text-to-image diffusion models trained on billions of image-caption
pairs. We optimize the articulation of a skinned human mesh using Score
Distillation Sampling (SDS) gradients obtained from these models, which predict
image-space edits. However, directly backpropagating image-space gradients into
complex articulation parameters is ineffective due to the local nature of such
gradients. To overcome this, we introduce a dual implicit-explicit
representation of a skinned mesh, combining (implicit) neural radiance fields
(NeRFs) with (explicit) skeleton-driven mesh articulation. During optimization,
we transition between implicit and explicit forms, grounding the NeRF
generation while refining the mesh articulation. We validate our approach
through extensive experiments, demonstrating its effectiveness in generating
realistic HOIs.Summary
AI-Generated Summary