ChatPaper.aiChatPaper

DreamHOI: Subjektgesteuerte Generierung von 3D-Mensch-Objekt-Interaktionen mit Diffusionsprioritäten

DreamHOI: Subject-Driven Generation of 3D Human-Object Interactions with Diffusion Priors

September 12, 2024
Autoren: Thomas Hanwen Zhu, Ruining Li, Tomas Jakab
cs.AI

Zusammenfassung

Wir präsentieren DreamHOI, eine innovative Methode zur Null-Shot-Synthese von Mensch-Objekt-Interaktionen (HOIs), die es einem 3D-Menschmodell ermöglicht, realistisch mit einem beliebigen Objekt basierend auf einer textuellen Beschreibung zu interagieren. Diese Aufgabe wird durch die unterschiedlichen Kategorien und Geometrien realer Objekte sowie die Knappheit von Datensätzen, die vielfältige HOIs umfassen, kompliziert. Um aufwendige Datensammlungen zu umgehen, greifen wir auf Text-zu-Bild-Diffusionsmodelle zurück, die auf Milliarden von Bildunterschriften-Paaren trainiert wurden. Wir optimieren die Artikulation eines skalierten menschlichen Netzes unter Verwendung von Score Distillation Sampling (SDS)-Gradienten, die von diesen Modellen erhalten werden und Bildraum-Änderungen vorhersagen. Direktes Rückpropagieren von Bildraum-Gradienten in komplexe Artikulationsparameter ist aufgrund der lokalen Natur solcher Gradienten ineffektiv. Um dies zu überwinden, führen wir eine duale implizit-explicit Repräsentation eines skalierten Netzes ein, die (implizite) neuronale Strahlungsfelder (NeRFs) mit (expliziter) skelettgesteuerter Netzartikulation kombiniert. Während der Optimierung wechseln wir zwischen impliziten und expliziten Formen und verankern die NeRF-Generierung, während wir die Netzartikulation verfeinern. Wir validieren unseren Ansatz durch umfangreiche Experimente, die seine Wirksamkeit bei der Erzeugung realistischer HOIs zeigen.
English
We present DreamHOI, a novel method for zero-shot synthesis of human-object interactions (HOIs), enabling a 3D human model to realistically interact with any given object based on a textual description. This task is complicated by the varying categories and geometries of real-world objects and the scarcity of datasets encompassing diverse HOIs. To circumvent the need for extensive data, we leverage text-to-image diffusion models trained on billions of image-caption pairs. We optimize the articulation of a skinned human mesh using Score Distillation Sampling (SDS) gradients obtained from these models, which predict image-space edits. However, directly backpropagating image-space gradients into complex articulation parameters is ineffective due to the local nature of such gradients. To overcome this, we introduce a dual implicit-explicit representation of a skinned mesh, combining (implicit) neural radiance fields (NeRFs) with (explicit) skeleton-driven mesh articulation. During optimization, we transition between implicit and explicit forms, grounding the NeRF generation while refining the mesh articulation. We validate our approach through extensive experiments, demonstrating its effectiveness in generating realistic HOIs.

Summary

AI-Generated Summary

PDF153November 16, 2024