Síntesis Controlable de Interacción Humano-Objeto

Resumen

La síntesis de interacciones humano-objeto semánticamente conscientes y de largo horizonte es fundamental para simular comportamientos humanos realistas. En este trabajo, abordamos el problema desafiante de generar movimientos sincronizados de objetos y humanos guiados por descripciones lingüísticas en escenas 3D. Proponemos Síntesis de Interacción Humano-Objeto Controlable (CHOIS), un enfoque que genera simultáneamente el movimiento de objetos y humanos utilizando un modelo de difusión condicional dada una descripción lingüística, los estados iniciales del objeto y del humano, y waypoints dispersos del objeto. Mientras que las descripciones lingüísticas informan sobre el estilo y la intención, los waypoints anclan el movimiento en la escena y pueden extraerse eficazmente utilizando métodos de planificación de alto nivel. Aplicar un modelo de difusión de manera ingenua no logra predecir el movimiento del objeto alineado con los waypoints de entrada y no puede garantizar el realismo de las interacciones que requieren un contacto preciso mano-objeto y un contacto adecuado anclado al suelo. Para superar estos problemas, introducimos una pérdida de geometría del objeto como supervisión adicional para mejorar la coincidencia entre el movimiento del objeto generado y los waypoints del objeto de entrada. Además, diseñamos términos de guía para imponer restricciones de contacto durante el proceso de muestreo del modelo de difusión entrenado.

English

Synthesizing semantic-aware, long-horizon, human-object interaction is critical to simulate realistic human behaviors. In this work, we address the challenging problem of generating synchronized object motion and human motion guided by language descriptions in 3D scenes. We propose Controllable Human-Object Interaction Synthesis (CHOIS), an approach that generates object motion and human motion simultaneously using a conditional diffusion model given a language description, initial object and human states, and sparse object waypoints. While language descriptions inform style and intent, waypoints ground the motion in the scene and can be effectively extracted using high-level planning methods. Naively applying a diffusion model fails to predict object motion aligned with the input waypoints and cannot ensure the realism of interactions that require precise hand-object contact and appropriate contact grounded by the floor. To overcome these problems, we introduce an object geometry loss as additional supervision to improve the matching between generated object motion and input object waypoints. In addition, we design guidance terms to enforce contact constraints during the sampling process of the trained diffusion model.