Synthèse contrôlée des interactions humain-objet
Controllable Human-Object Interaction Synthesis
December 6, 2023
Auteurs: Jiaman Li, Alexander Clegg, Roozbeh Mottaghi, Jiajun Wu, Xavier Puig, C. Karen Liu
cs.AI
Résumé
La synthèse d'interactions humain-objet sémantiquement cohérentes et à long terme est essentielle pour simuler des comportements humains réalistes. Dans ce travail, nous abordons le problème complexe de générer des mouvements synchronisés d'objets et d'humains guidés par des descriptions langagières dans des scènes 3D. Nous proposons CHOIS (Controllable Human-Object Interaction Synthesis), une approche qui génère simultanément les mouvements des objets et des humains en utilisant un modèle de diffusion conditionnel, étant donné une description langagière, les états initiaux de l'objet et de l'humain, ainsi que des points de passage clés de l'objet. Alors que les descriptions langagières informent le style et l'intention, les points de passage ancrent le mouvement dans la scène et peuvent être efficacement extraits à l'aide de méthodes de planification de haut niveau. L'application naïve d'un modèle de diffusion échoue à prédire un mouvement d'objet aligné avec les points de passage en entrée et ne peut garantir le réalisme des interactions nécessitant un contact précis main-objet et un contact approprié avec le sol. Pour surmonter ces problèmes, nous introduisons une perte de géométrie de l'objet comme supervision supplémentaire pour améliorer la correspondance entre le mouvement généré de l'objet et les points de passage en entrée. De plus, nous concevons des termes de guidage pour imposer des contraintes de contact pendant le processus d'échantillonnage du modèle de diffusion entraîné.
English
Synthesizing semantic-aware, long-horizon, human-object interaction is
critical to simulate realistic human behaviors. In this work, we address the
challenging problem of generating synchronized object motion and human motion
guided by language descriptions in 3D scenes. We propose Controllable
Human-Object Interaction Synthesis (CHOIS), an approach that generates object
motion and human motion simultaneously using a conditional diffusion model
given a language description, initial object and human states, and sparse
object waypoints. While language descriptions inform style and intent,
waypoints ground the motion in the scene and can be effectively extracted using
high-level planning methods. Naively applying a diffusion model fails to
predict object motion aligned with the input waypoints and cannot ensure the
realism of interactions that require precise hand-object contact and
appropriate contact grounded by the floor. To overcome these problems, we
introduce an object geometry loss as additional supervision to improve the
matching between generated object motion and input object waypoints. In
addition, we design guidance terms to enforce contact constraints during the
sampling process of the trained diffusion model.