Síntese Controlável de Interação Humano-Objeto

Resumo

Sintetizar interações humano-objeto semânticas e de longo horizonte é crucial para simular comportamentos humanos realistas. Neste trabalho, abordamos o problema desafiador de gerar movimentos sincronizados de objetos e humanos guiados por descrições linguísticas em cenas 3D. Propomos a Síntese Controlável de Interação Humano-Objeto (CHOIS), uma abordagem que gera simultaneamente o movimento de objetos e humanos usando um modelo de difusão condicional, dada uma descrição linguística, estados iniciais do objeto e do humano, e waypoints esparsos do objeto. Enquanto as descrições linguísticas informam o estilo e a intenção, os waypoints fundamentam o movimento na cena e podem ser efetivamente extraídos usando métodos de planejamento de alto nível. A aplicação ingênua de um modelo de difusão falha em prever o movimento do objeto alinhado com os waypoints de entrada e não consegue garantir o realismo das interações que exigem contato preciso mão-objeto e contato apropriado com o chão. Para superar esses problemas, introduzimos uma perda de geometria do objeto como supervisão adicional para melhorar a correspondência entre o movimento gerado do objeto e os waypoints de entrada do objeto. Além disso, projetamos termos de orientação para impor restrições de contato durante o processo de amostragem do modelo de difusão treinado.

English

Synthesizing semantic-aware, long-horizon, human-object interaction is critical to simulate realistic human behaviors. In this work, we address the challenging problem of generating synchronized object motion and human motion guided by language descriptions in 3D scenes. We propose Controllable Human-Object Interaction Synthesis (CHOIS), an approach that generates object motion and human motion simultaneously using a conditional diffusion model given a language description, initial object and human states, and sparse object waypoints. While language descriptions inform style and intent, waypoints ground the motion in the scene and can be effectively extracted using high-level planning methods. Naively applying a diffusion model fails to predict object motion aligned with the input waypoints and cannot ensure the realism of interactions that require precise hand-object contact and appropriate contact grounded by the floor. To overcome these problems, we introduce an object geometry loss as additional supervision to improve the matching between generated object motion and input object waypoints. In addition, we design guidance terms to enforce contact constraints during the sampling process of the trained diffusion model.