ChatPaper.aiChatPaper

Autonome Karakter-Scène-Interactiesynthese vanuit Tekstinstructie

Autonomous Character-Scene Interaction Synthesis from Text Instruction

October 4, 2024
Auteurs: Nan Jiang, Zimo He, Zi Wang, Hongjie Li, Yixin Chen, Siyuan Huang, Yixin Zhu
cs.AI

Samenvatting

Het synthetiseren van menselijke bewegingen in 3D-omgevingen, met name die met complexe activiteiten zoals voortbeweging, handbereiking en mens-objectinteractie, vereist aanzienlijke eisen voor door de gebruiker gedefinieerde waypoints en fasewisselingen. Deze vereisten vormen uitdagingen voor huidige modellen, wat resulteert in een opmerkelijke kloof in het automatiseren van de animatie van karakters op basis van eenvoudige menselijke invoer. Dit artikel pakt deze uitdaging aan door een allesomvattend kader te introduceren voor het synthetiseren van multi-stage scène-bewuste interactiebewegingen rechtstreeks vanuit een enkele tekstinstructie en doellocatie. Onze benadering maakt gebruik van een autoregressief diffusiemodel om het volgende bewegingssegment te synthetiseren, samen met een autonome planner die de overgang voorspelt voor elke actiefase. Om ervoor te zorgen dat de gesynthetiseerde bewegingen naadloos geïntegreerd zijn binnen de omgeving, stellen we een scène-representatie voor die de lokale perceptie zowel bij het startpunt als bij de doellocatie in overweging neemt. We verbeteren verder de coherentie van de gegenereerde beweging door frame-embeddings te integreren met taalinvoer. Daarnaast presenteren we, ter ondersteuning van modeltraining, een uitgebreide dataset van motion capture bestaande uit 16 uur aan bewegingsreeksen in 120 binnenomgevingen die 40 soorten bewegingen bestrijken, elk geannoteerd met nauwkeurige taalbeschrijvingen. Experimentele resultaten tonen de doeltreffendheid van onze methode aan bij het genereren van hoogwaardige, multi-stage bewegingen die nauw aansluiten bij omgevings- en tekstuele omstandigheden.
English
Synthesizing human motions in 3D environments, particularly those with complex activities such as locomotion, hand-reaching, and human-object interaction, presents substantial demands for user-defined waypoints and stage transitions. These requirements pose challenges for current models, leading to a notable gap in automating the animation of characters from simple human inputs. This paper addresses this challenge by introducing a comprehensive framework for synthesizing multi-stage scene-aware interaction motions directly from a single text instruction and goal location. Our approach employs an auto-regressive diffusion model to synthesize the next motion segment, along with an autonomous scheduler predicting the transition for each action stage. To ensure that the synthesized motions are seamlessly integrated within the environment, we propose a scene representation that considers the local perception both at the start and the goal location. We further enhance the coherence of the generated motion by integrating frame embeddings with language input. Additionally, to support model training, we present a comprehensive motion-captured dataset comprising 16 hours of motion sequences in 120 indoor scenes covering 40 types of motions, each annotated with precise language descriptions. Experimental results demonstrate the efficacy of our method in generating high-quality, multi-stage motions closely aligned with environmental and textual conditions.

Summary

AI-Generated Summary

PDF72November 16, 2024