ChatPaper.aiChatPaper

DreamHOI: Generazione guidata dal soggetto di interazioni umano-oggetto in 3D con Priors di diffusione

DreamHOI: Subject-Driven Generation of 3D Human-Object Interactions with Diffusion Priors

September 12, 2024
Autori: Thomas Hanwen Zhu, Ruining Li, Tomas Jakab
cs.AI

Abstract

Presentiamo DreamHOI, un nuovo metodo per la sintesi zero-shot delle interazioni umano-oggetto (HOI), che consente a un modello umano 3D di interagire realisticamente con un qualsiasi oggetto dato sulla base di una descrizione testuale. Questo compito è complicato dalle varie categorie e geometrie degli oggetti del mondo reale e dalla scarsità di set di dati che comprendono diverse HOI. Per evitare la necessità di dati estesi, sfruttiamo modelli di diffusione testo-immagine addestrati su miliardi di coppie immagine-didascalia. Ottimizziamo l'articolazione di una maglia umana skinned utilizzando i gradienti di Score Distillation Sampling (SDS) ottenuti da questi modelli, che predicono modifiche nello spazio immagine. Tuttavia, propagare direttamente i gradienti dello spazio immagine nei parametri di articolazione complessi è inefficace a causa della natura locale di tali gradienti. Per superare ciò, introduciamo una rappresentazione implicita-esplicita duale di una maglia skinned, combinando i campi di radianza neurale (NeRFs) (impliciti) con l'articolazione della maglia guidata da scheletro (esplicita). Durante l'ottimizzazione, transizioniamo tra forme implicite ed esplicite, ancorando la generazione di NeRF mentre perfezioniamo l'articolazione della maglia. Convalidiamo il nostro approccio attraverso estesi esperimenti, dimostrandone l'efficacia nella generazione di HOI realistiche.
English
We present DreamHOI, a novel method for zero-shot synthesis of human-object interactions (HOIs), enabling a 3D human model to realistically interact with any given object based on a textual description. This task is complicated by the varying categories and geometries of real-world objects and the scarcity of datasets encompassing diverse HOIs. To circumvent the need for extensive data, we leverage text-to-image diffusion models trained on billions of image-caption pairs. We optimize the articulation of a skinned human mesh using Score Distillation Sampling (SDS) gradients obtained from these models, which predict image-space edits. However, directly backpropagating image-space gradients into complex articulation parameters is ineffective due to the local nature of such gradients. To overcome this, we introduce a dual implicit-explicit representation of a skinned mesh, combining (implicit) neural radiance fields (NeRFs) with (explicit) skeleton-driven mesh articulation. During optimization, we transition between implicit and explicit forms, grounding the NeRF generation while refining the mesh articulation. We validate our approach through extensive experiments, demonstrating its effectiveness in generating realistic HOIs.

Summary

AI-Generated Summary

PDF153November 16, 2024