DreamHOI: Generación impulsada por el sujeto de Interacciones Humano-Objeto en 3D con Priors de Difusión
DreamHOI: Subject-Driven Generation of 3D Human-Object Interactions with Diffusion Priors
September 12, 2024
Autores: Thomas Hanwen Zhu, Ruining Li, Tomas Jakab
cs.AI
Resumen
Presentamos DreamHOI, un método novedoso para la síntesis de interacciones humano-objeto (HOIs) de cero disparos, que permite que un modelo humano en 3D interactúe de manera realista con cualquier objeto dado basado en una descripción textual. Esta tarea se complica debido a las diversas categorías y geometrías de los objetos del mundo real y la escasez de conjuntos de datos que abarquen diversas HOIs. Para evitar la necesidad de datos extensos, aprovechamos modelos de difusión de texto a imagen entrenados en miles de millones de pares de imágenes y leyendas. Optimizamos la articulación de un modelo humano con piel utilizando gradientes de Muestreo de Destilación de Puntuación (SDS) obtenidos de estos modelos, los cuales predicen ediciones en el espacio de imagen. Sin embargo, retropropagar gradientes en el espacio de imagen directamente en parámetros de articulación complejos es ineficaz debido a la naturaleza local de dichos gradientes. Para superar esto, introducimos una representación dual implícita-explicita de un modelo con piel, combinando campos de radiancia neural (NeRFs) (implícitos) con articulación de malla impulsada por esqueleto (explícita). Durante la optimización, transitamos entre formas implícitas y explícitas, fundamentando la generación de NeRF mientras refinamos la articulación de la malla. Validamos nuestro enfoque a través de experimentos extensos, demostrando su efectividad en la generación de HOIs realistas.
English
We present DreamHOI, a novel method for zero-shot synthesis of human-object
interactions (HOIs), enabling a 3D human model to realistically interact with
any given object based on a textual description. This task is complicated by
the varying categories and geometries of real-world objects and the scarcity of
datasets encompassing diverse HOIs. To circumvent the need for extensive data,
we leverage text-to-image diffusion models trained on billions of image-caption
pairs. We optimize the articulation of a skinned human mesh using Score
Distillation Sampling (SDS) gradients obtained from these models, which predict
image-space edits. However, directly backpropagating image-space gradients into
complex articulation parameters is ineffective due to the local nature of such
gradients. To overcome this, we introduce a dual implicit-explicit
representation of a skinned mesh, combining (implicit) neural radiance fields
(NeRFs) with (explicit) skeleton-driven mesh articulation. During optimization,
we transition between implicit and explicit forms, grounding the NeRF
generation while refining the mesh articulation. We validate our approach
through extensive experiments, demonstrating its effectiveness in generating
realistic HOIs.Summary
AI-Generated Summary