ChatPaper.aiChatPaper

Синтез управляемого взаимодействия человека с объектами

Controllable Human-Object Interaction Synthesis

December 6, 2023
Авторы: Jiaman Li, Alexander Clegg, Roozbeh Mottaghi, Jiajun Wu, Xavier Puig, C. Karen Liu
cs.AI

Аннотация

Синтез семантически осмысленных, долгосрочных взаимодействий человека с объектами имеет ключевое значение для моделирования реалистичного человеческого поведения. В данной работе мы решаем сложную задачу генерации синхронизированного движения объектов и человека, управляемого языковыми описаниями в трехмерных сценах. Мы предлагаем подход Controllable Human-Object Interaction Synthesis (CHOIS), который генерирует движение объектов и человека одновременно с использованием условной диффузионной модели на основе языкового описания, начальных состояний объекта и человека, а также разреженных путевых точек объекта. В то время как языковые описания задают стиль и намерения, путевые точки привязывают движение к сцене и могут быть эффективно извлечены с помощью методов высокоуровневого планирования. Простое применение диффузионной модели не позволяет предсказать движение объекта, согласованное с входными путевыми точками, и не обеспечивает реалистичность взаимодействий, требующих точного контакта руки с объектом и корректного контакта с полом. Для решения этих проблем мы вводим геометрический штраф для объекта в качестве дополнительного контроля, чтобы улучшить соответствие между сгенерированным движением объекта и входными путевыми точками. Кроме того, мы разрабатываем управляющие термины для обеспечения ограничений на контакт в процессе сэмплирования обученной диффузионной модели.
English
Synthesizing semantic-aware, long-horizon, human-object interaction is critical to simulate realistic human behaviors. In this work, we address the challenging problem of generating synchronized object motion and human motion guided by language descriptions in 3D scenes. We propose Controllable Human-Object Interaction Synthesis (CHOIS), an approach that generates object motion and human motion simultaneously using a conditional diffusion model given a language description, initial object and human states, and sparse object waypoints. While language descriptions inform style and intent, waypoints ground the motion in the scene and can be effectively extracted using high-level planning methods. Naively applying a diffusion model fails to predict object motion aligned with the input waypoints and cannot ensure the realism of interactions that require precise hand-object contact and appropriate contact grounded by the floor. To overcome these problems, we introduce an object geometry loss as additional supervision to improve the matching between generated object motion and input object waypoints. In addition, we design guidance terms to enforce contact constraints during the sampling process of the trained diffusion model.
PDF231December 15, 2024