Steuerbare Synthese von Mensch-Objekt-Interaktionen

papers.abstract

Die Synthese semantisch bewusster, langfristiger Mensch-Objekt-Interaktionen ist entscheidend, um realistische menschliche Verhaltensweisen zu simulieren. In dieser Arbeit behandeln wir das anspruchsvolle Problem der Erzeugung synchronisierter Objekt- und menschlicher Bewegungen, die durch Sprachbeschreibungen in 3D-Szenen gesteuert werden. Wir schlagen Controllable Human-Object Interaction Synthesis (CHOIS) vor, einen Ansatz, der Objekt- und menschliche Bewegungen gleichzeitig mithilfe eines bedingten Diffusionsmodells erzeugt, basierend auf einer Sprachbeschreibung, den initialen Objekt- und menschlichen Zuständen sowie spärlichen Objekt-Wegpunkten. Während Sprachbeschreibungen Stil und Absicht vermitteln, verankern Wegpunkte die Bewegung in der Szene und können effektiv mit hochrangigen Planungsmethoden extrahiert werden. Die naive Anwendung eines Diffusionsmodells scheitert daran, Objektbewegungen vorherzusagen, die mit den eingegebenen Wegpunkten übereinstimmen, und kann die Realismus von Interaktionen, die präzisen Hand-Objekt-Kontakt und angemessenen, bodengebundenen Kontakt erfordern, nicht gewährleisten. Um diese Probleme zu überwinden, führen wir einen Objektgeometrie-Verlust als zusätzliche Überwachung ein, um die Übereinstimmung zwischen generierter Objektbewegung und eingegebenen Objekt-Wegpunkten zu verbessern. Zusätzlich entwerfen wir Führungsterme, um Kontaktbeschränkungen während des Abtastprozesses des trainierten Diffusionsmodells durchzusetzen.

English

Synthesizing semantic-aware, long-horizon, human-object interaction is critical to simulate realistic human behaviors. In this work, we address the challenging problem of generating synchronized object motion and human motion guided by language descriptions in 3D scenes. We propose Controllable Human-Object Interaction Synthesis (CHOIS), an approach that generates object motion and human motion simultaneously using a conditional diffusion model given a language description, initial object and human states, and sparse object waypoints. While language descriptions inform style and intent, waypoints ground the motion in the scene and can be effectively extracted using high-level planning methods. Naively applying a diffusion model fails to predict object motion aligned with the input waypoints and cannot ensure the realism of interactions that require precise hand-object contact and appropriate contact grounded by the floor. To overcome these problems, we introduce an object geometry loss as additional supervision to improve the matching between generated object motion and input object waypoints. In addition, we design guidance terms to enforce contact constraints during the sampling process of the trained diffusion model.