InsActor: 명령어 기반 물리 시뮬레이션 캐릭터
InsActor: Instruction-driven Physics-based Characters
December 28, 2023
저자: Jiawei Ren, Mingyuan Zhang, Cunjun Yu, Xiao Ma, Liang Pan, Ziwei Liu
cs.AI
초록
물리 기반 캐릭터의 애니메이션을 직관적인 제어로 생성하는 것은 오랫동안 다양한 응용 분야에서 바람직한 과제로 여겨져 왔습니다. 그러나 물리적 환경의 복잡성과 인간 언어의 풍부함으로 인해 고수준의 인간 지시를 반영하는 물리 시뮬레이션 애니메이션을 생성하는 것은 여전히 어려운 문제로 남아 있습니다. 본 논문에서는 최근의 확산 기반 인간 모션 모델의 발전을 활용하여 물리 기반 캐릭터의 지시 기반 애니메이션을 생성하는 원칙적인 생성 프레임워크인 InsActor를 소개합니다. 우리의 프레임워크는 유연한 조건부 모션 계획을 위해 확산 정책을 사용함으로써 InsActor가 고수준 인간 지시와 캐릭터 모션 간의 복잡한 관계를 포착할 수 있도록 합니다. 계획된 모션에서 무효 상태와 실행 불가능한 상태 전이를 극복하기 위해 InsActor는 저수준 스킬을 발견하고 계획을 컴팩트한 잠재 공간의 잠재 스킬 시퀀스에 매핑합니다. 광범위한 실험을 통해 InsActor가 지시 기반 모션 생성 및 지시 기반 웨이포인트 헤딩을 포함한 다양한 작업에서 최첨단 결과를 달성함을 입증했습니다. 특히, InsActor가 고수준 인간 지시를 사용하여 물리 시뮬레이션 애니메이션을 생성할 수 있는 능력은 풍부한 지시 세트를 사용하여 장기간 작업을 실행하는 데 있어 특히 유용한 도구로 자리매김합니다.
English
Generating animation of physics-based characters with intuitive control has
long been a desirable task with numerous applications. However, generating
physically simulated animations that reflect high-level human instructions
remains a difficult problem due to the complexity of physical environments and
the richness of human language. In this paper, we present InsActor, a
principled generative framework that leverages recent advancements in
diffusion-based human motion models to produce instruction-driven animations of
physics-based characters. Our framework empowers InsActor to capture complex
relationships between high-level human instructions and character motions by
employing diffusion policies for flexibly conditioned motion planning. To
overcome invalid states and infeasible state transitions in planned motions,
InsActor discovers low-level skills and maps plans to latent skill sequences in
a compact latent space. Extensive experiments demonstrate that InsActor
achieves state-of-the-art results on various tasks, including
instruction-driven motion generation and instruction-driven waypoint heading.
Notably, the ability of InsActor to generate physically simulated animations
using high-level human instructions makes it a valuable tool, particularly in
executing long-horizon tasks with a rich set of instructions.