Steuerbare Synthese von Mensch-Objekt-Interaktionen
Controllable Human-Object Interaction Synthesis
December 6, 2023
Autoren: Jiaman Li, Alexander Clegg, Roozbeh Mottaghi, Jiajun Wu, Xavier Puig, C. Karen Liu
cs.AI
Zusammenfassung
Die Synthese semantisch bewusster, langfristiger Mensch-Objekt-Interaktionen ist entscheidend, um realistische menschliche Verhaltensweisen zu simulieren. In dieser Arbeit behandeln wir das anspruchsvolle Problem der Erzeugung synchronisierter Objekt- und menschlicher Bewegungen, die durch Sprachbeschreibungen in 3D-Szenen gesteuert werden. Wir schlagen Controllable Human-Object Interaction Synthesis (CHOIS) vor, einen Ansatz, der Objekt- und menschliche Bewegungen gleichzeitig mithilfe eines bedingten Diffusionsmodells erzeugt, basierend auf einer Sprachbeschreibung, den initialen Objekt- und menschlichen Zuständen sowie spärlichen Objekt-Wegpunkten. Während Sprachbeschreibungen Stil und Absicht vermitteln, verankern Wegpunkte die Bewegung in der Szene und können effektiv mit hochrangigen Planungsmethoden extrahiert werden. Die naive Anwendung eines Diffusionsmodells scheitert daran, Objektbewegungen vorherzusagen, die mit den eingegebenen Wegpunkten übereinstimmen, und kann die Realismus von Interaktionen, die präzisen Hand-Objekt-Kontakt und angemessenen, bodengebundenen Kontakt erfordern, nicht gewährleisten. Um diese Probleme zu überwinden, führen wir einen Objektgeometrie-Verlust als zusätzliche Überwachung ein, um die Übereinstimmung zwischen generierter Objektbewegung und eingegebenen Objekt-Wegpunkten zu verbessern. Zusätzlich entwerfen wir Führungsterme, um Kontaktbeschränkungen während des Abtastprozesses des trainierten Diffusionsmodells durchzusetzen.
English
Synthesizing semantic-aware, long-horizon, human-object interaction is
critical to simulate realistic human behaviors. In this work, we address the
challenging problem of generating synchronized object motion and human motion
guided by language descriptions in 3D scenes. We propose Controllable
Human-Object Interaction Synthesis (CHOIS), an approach that generates object
motion and human motion simultaneously using a conditional diffusion model
given a language description, initial object and human states, and sparse
object waypoints. While language descriptions inform style and intent,
waypoints ground the motion in the scene and can be effectively extracted using
high-level planning methods. Naively applying a diffusion model fails to
predict object motion aligned with the input waypoints and cannot ensure the
realism of interactions that require precise hand-object contact and
appropriate contact grounded by the floor. To overcome these problems, we
introduce an object geometry loss as additional supervision to improve the
matching between generated object motion and input object waypoints. In
addition, we design guidance terms to enforce contact constraints during the
sampling process of the trained diffusion model.