Síntese Controlável de Interação Humano-Objeto
Controllable Human-Object Interaction Synthesis
December 6, 2023
Autores: Jiaman Li, Alexander Clegg, Roozbeh Mottaghi, Jiajun Wu, Xavier Puig, C. Karen Liu
cs.AI
Resumo
Sintetizar interações humano-objeto semânticas e de longo horizonte é crucial para simular comportamentos humanos realistas. Neste trabalho, abordamos o problema desafiador de gerar movimentos sincronizados de objetos e humanos guiados por descrições linguísticas em cenas 3D. Propomos a Síntese Controlável de Interação Humano-Objeto (CHOIS), uma abordagem que gera simultaneamente o movimento de objetos e humanos usando um modelo de difusão condicional, dada uma descrição linguística, estados iniciais do objeto e do humano, e waypoints esparsos do objeto. Enquanto as descrições linguísticas informam o estilo e a intenção, os waypoints fundamentam o movimento na cena e podem ser efetivamente extraídos usando métodos de planejamento de alto nível. A aplicação ingênua de um modelo de difusão falha em prever o movimento do objeto alinhado com os waypoints de entrada e não consegue garantir o realismo das interações que exigem contato preciso mão-objeto e contato apropriado com o chão. Para superar esses problemas, introduzimos uma perda de geometria do objeto como supervisão adicional para melhorar a correspondência entre o movimento gerado do objeto e os waypoints de entrada do objeto. Além disso, projetamos termos de orientação para impor restrições de contato durante o processo de amostragem do modelo de difusão treinado.
English
Synthesizing semantic-aware, long-horizon, human-object interaction is
critical to simulate realistic human behaviors. In this work, we address the
challenging problem of generating synchronized object motion and human motion
guided by language descriptions in 3D scenes. We propose Controllable
Human-Object Interaction Synthesis (CHOIS), an approach that generates object
motion and human motion simultaneously using a conditional diffusion model
given a language description, initial object and human states, and sparse
object waypoints. While language descriptions inform style and intent,
waypoints ground the motion in the scene and can be effectively extracted using
high-level planning methods. Naively applying a diffusion model fails to
predict object motion aligned with the input waypoints and cannot ensure the
realism of interactions that require precise hand-object contact and
appropriate contact grounded by the floor. To overcome these problems, we
introduce an object geometry loss as additional supervision to improve the
matching between generated object motion and input object waypoints. In
addition, we design guidance terms to enforce contact constraints during the
sampling process of the trained diffusion model.