스토리-투-모션: 장문 텍스트에서 무한하고 제어 가능한 캐릭터 애니메이션 합성
Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text
November 13, 2023
저자: Zhongfei Qing, Zhongang Cai, Zhitao Yang, Lei Yang
cs.AI
초록
스토리에서 자연스러운 인간 동작을 생성하는 것은 애니메이션, 게임, 영화 산업의 지형을 바꿀 잠재력을 가지고 있습니다. 새로운 도전 과제인 '스토리-투-모션(Story-to-Motion)'은 캐릭터들이 긴 텍스트 설명에 따라 다양한 위치로 이동하고 특정 동작을 수행해야 할 때 발생합니다. 이 작업은 저수준 제어(궤적)와 고수준 제어(동작 의미론)의 융합을 요구합니다. 캐릭터 제어 및 텍스트-투-모션 분야의 기존 연구들은 관련된 측면들을 다루었지만, 포괄적인 해결책은 여전히 미흡합니다: 캐릭터 제어 방법은 텍스트 설명을 처리하지 못하며, 텍스트-투-모션 방법은 위치 제약이 없고 종종 불안정한 동작을 생성합니다. 이러한 한계를 고려하여, 우리는 입력 텍스트와 일치하는 제어 가능하고 무한히 긴 동작과 궤적을 생성하는 새로운 시스템을 제안합니다. (1) 우리는 최신 대형 언어 모델을 활용하여 텍스트 기반 동작 스케줄러로 작동하도록 하여 긴 텍스트에서 일련의 (텍스트, 위치, 지속 시간) 쌍을 추출합니다. (2) 우리는 동작 의미론과 궤적 제약을 포함한 텍스트 기반 동작 검색 방식을 개발합니다. (3) 우리는 전이 동작에서 흔히 발생하는 부자연스러운 자세와 발 미끄러짐과 같은 아티팩트를 해결하는 점진적 마스크 트랜스포머를 설계합니다. 스토리-투-모션을 위한 첫 번째 포괄적인 해결책으로서의 선구적인 역할을 넘어, 우리의 시스템은 궤적 추적, 시간적 액션 구성, 동작 혼합이라는 세 가지 별개의 하위 작업에서 평가를 거치며, 모든 면에서 기존의 최첨단 동작 합성 방법들을 능가합니다. 홈페이지: https://story2motion.github.io/.
English
Generating natural human motion from a story has the potential to transform
the landscape of animation, gaming, and film industries. A new and challenging
task, Story-to-Motion, arises when characters are required to move to various
locations and perform specific motions based on a long text description. This
task demands a fusion of low-level control (trajectories) and high-level
control (motion semantics). Previous works in character control and
text-to-motion have addressed related aspects, yet a comprehensive solution
remains elusive: character control methods do not handle text description,
whereas text-to-motion methods lack position constraints and often produce
unstable motions. In light of these limitations, we propose a novel system that
generates controllable, infinitely long motions and trajectories aligned with
the input text. (1) We leverage contemporary Large Language Models to act as a
text-driven motion scheduler to extract a series of (text, position, duration)
pairs from long text. (2) We develop a text-driven motion retrieval scheme that
incorporates motion matching with motion semantic and trajectory constraints.
(3) We design a progressive mask transformer that addresses common artifacts in
the transition motion such as unnatural pose and foot sliding. Beyond its
pioneering role as the first comprehensive solution for Story-to-Motion, our
system undergoes evaluation across three distinct sub-tasks: trajectory
following, temporal action composition, and motion blending, where it
outperforms previous state-of-the-art motion synthesis methods across the
board. Homepage: https://story2motion.github.io/.