Síntesis Controlable de Interacción Humano-Objeto
Controllable Human-Object Interaction Synthesis
December 6, 2023
Autores: Jiaman Li, Alexander Clegg, Roozbeh Mottaghi, Jiajun Wu, Xavier Puig, C. Karen Liu
cs.AI
Resumen
La síntesis de interacciones humano-objeto semánticamente conscientes y de largo horizonte es fundamental para simular comportamientos humanos realistas. En este trabajo, abordamos el problema desafiante de generar movimientos sincronizados de objetos y humanos guiados por descripciones lingüísticas en escenas 3D. Proponemos Síntesis de Interacción Humano-Objeto Controlable (CHOIS), un enfoque que genera simultáneamente el movimiento de objetos y humanos utilizando un modelo de difusión condicional dada una descripción lingüística, los estados iniciales del objeto y del humano, y waypoints dispersos del objeto. Mientras que las descripciones lingüísticas informan sobre el estilo y la intención, los waypoints anclan el movimiento en la escena y pueden extraerse eficazmente utilizando métodos de planificación de alto nivel. Aplicar un modelo de difusión de manera ingenua no logra predecir el movimiento del objeto alineado con los waypoints de entrada y no puede garantizar el realismo de las interacciones que requieren un contacto preciso mano-objeto y un contacto adecuado anclado al suelo. Para superar estos problemas, introducimos una pérdida de geometría del objeto como supervisión adicional para mejorar la coincidencia entre el movimiento del objeto generado y los waypoints del objeto de entrada. Además, diseñamos términos de guía para imponer restricciones de contacto durante el proceso de muestreo del modelo de difusión entrenado.
English
Synthesizing semantic-aware, long-horizon, human-object interaction is
critical to simulate realistic human behaviors. In this work, we address the
challenging problem of generating synchronized object motion and human motion
guided by language descriptions in 3D scenes. We propose Controllable
Human-Object Interaction Synthesis (CHOIS), an approach that generates object
motion and human motion simultaneously using a conditional diffusion model
given a language description, initial object and human states, and sparse
object waypoints. While language descriptions inform style and intent,
waypoints ground the motion in the scene and can be effectively extracted using
high-level planning methods. Naively applying a diffusion model fails to
predict object motion aligned with the input waypoints and cannot ensure the
realism of interactions that require precise hand-object contact and
appropriate contact grounded by the floor. To overcome these problems, we
introduce an object geometry loss as additional supervision to improve the
matching between generated object motion and input object waypoints. In
addition, we design guidance terms to enforce contact constraints during the
sampling process of the trained diffusion model.