ChatPaper.aiChatPaper

텍스트 명령으로부터 자율적인 캐릭터-장면 상호작용 합성

Autonomous Character-Scene Interaction Synthesis from Text Instruction

October 4, 2024
저자: Nan Jiang, Zimo He, Zi Wang, Hongjie Li, Yixin Chen, Siyuan Huang, Yixin Zhu
cs.AI

초록

3D 환경에서 인간 동작을 합성하는 것은 특히 보행, 손 도달, 그리고 인간-객체 상호작용과 같은 복잡한 활동을 포함할 때 사용자 정의 웨이포인트와 단계 전환에 상당한 요구를 제시합니다. 이러한 요구 사항은 현재 모델에 대한 도전 과제를 제기하여 단순한 인간 입력에서 캐릭터의 애니메이션을 자동화하는 데 상당한 공백을 남기고 있습니다. 본 논문은 단일 텍스트 명령과 목표 위치로부터 직접 다단계 장면 인식 상호작용 동작을 합성하기 위한 포괄적인 프레임워크를 소개함으로써 이 도전에 대처합니다. 저희 방법은 다음 동작 세그먼트를 합성하기 위해 자기 회귀 확산 모델을 사용하며, 각 작업 단계의 전환을 예측하는 자율 스케줄러를 도입합니다. 합성된 동작이 환경 내에서 매끄럽게 통합되도록 보장하기 위해 시작 및 목표 위치에서의 지역 인식을 고려하는 장면 표현을 제안합니다. 또한 생성된 동작의 일관성을 강화하기 위해 프레임 임베딩을 언어 입력과 통합합니다. 더불어 모델 훈련을 지원하기 위해, 120개의 실내 장면에서 16시간의 동작 시퀀스를 포함하고 각각 정확한 언어 설명으로 주석이 달린 40가지 유형의 동작을 포함하는 포괄적인 동작 캡처 데이터셋을 제시합니다. 실험 결과는 우리의 방법이 환경 및 텍스트 조건과 밀접하게 일치하는 고품질의 다단계 동작을 생성하는 데 효과적임을 입증합니다.
English
Synthesizing human motions in 3D environments, particularly those with complex activities such as locomotion, hand-reaching, and human-object interaction, presents substantial demands for user-defined waypoints and stage transitions. These requirements pose challenges for current models, leading to a notable gap in automating the animation of characters from simple human inputs. This paper addresses this challenge by introducing a comprehensive framework for synthesizing multi-stage scene-aware interaction motions directly from a single text instruction and goal location. Our approach employs an auto-regressive diffusion model to synthesize the next motion segment, along with an autonomous scheduler predicting the transition for each action stage. To ensure that the synthesized motions are seamlessly integrated within the environment, we propose a scene representation that considers the local perception both at the start and the goal location. We further enhance the coherence of the generated motion by integrating frame embeddings with language input. Additionally, to support model training, we present a comprehensive motion-captured dataset comprising 16 hours of motion sequences in 120 indoor scenes covering 40 types of motions, each annotated with precise language descriptions. Experimental results demonstrate the efficacy of our method in generating high-quality, multi-stage motions closely aligned with environmental and textual conditions.

Summary

AI-Generated Summary

PDF72November 16, 2024