Synthèse autonome de l'interaction entre les personnages et les scènes à partir d'instructions textuelles.

papers.abstract

La synthèse des mouvements humains dans des environnements 3D, en particulier ceux impliquant des activités complexes telles que la locomotion, l'atteinte d'objets à la main et l'interaction humain-objet, présente des exigences substantielles en termes de points de passage définis par l'utilisateur et de transitions de scène. Ces exigences posent des défis pour les modèles actuels, entraînant un écart notable dans l'automatisation de l'animation de personnages à partir de simples entrées humaines. Cet article aborde ce défi en introduisant un cadre complet pour la synthèse de mouvements d'interaction scénique multi-étapes directement à partir d'une seule instruction textuelle et d'une localisation d'objectif. Notre approche utilise un modèle de diffusion auto-régressif pour synthétiser le segment de mouvement suivant, ainsi qu'un planificateur autonome prédisant la transition pour chaque étape d'action. Pour garantir que les mouvements synthétisés s'intègrent de manière transparente dans l'environnement, nous proposons une représentation de scène qui prend en compte la perception locale à la fois au point de départ et à l'objectif. Nous améliorons en outre la cohérence du mouvement généré en intégrant des plongements de trame avec l'entrée linguistique. De plus, pour soutenir l'entraînement du modèle, nous présentons un ensemble de données complet de capture de mouvement comprenant 16 heures de séquences de mouvement dans 120 scènes intérieures couvrant 40 types de mouvements, chacun annoté avec des descriptions linguistiques précises. Les résultats expérimentaux démontrent l'efficacité de notre méthode dans la génération de mouvements multi-étapes de haute qualité étroitement alignés sur les conditions environnementales et textuelles.

English

Synthesizing human motions in 3D environments, particularly those with complex activities such as locomotion, hand-reaching, and human-object interaction, presents substantial demands for user-defined waypoints and stage transitions. These requirements pose challenges for current models, leading to a notable gap in automating the animation of characters from simple human inputs. This paper addresses this challenge by introducing a comprehensive framework for synthesizing multi-stage scene-aware interaction motions directly from a single text instruction and goal location. Our approach employs an auto-regressive diffusion model to synthesize the next motion segment, along with an autonomous scheduler predicting the transition for each action stage. To ensure that the synthesized motions are seamlessly integrated within the environment, we propose a scene representation that considers the local perception both at the start and the goal location. We further enhance the coherence of the generated motion by integrating frame embeddings with language input. Additionally, to support model training, we present a comprehensive motion-captured dataset comprising 16 hours of motion sequences in 120 indoor scenes covering 40 types of motions, each annotated with precise language descriptions. Experimental results demonstrate the efficacy of our method in generating high-quality, multi-stage motions closely aligned with environmental and textual conditions.

Synthèse autonome de l'interaction entre les personnages et les scènes à partir d'instructions textuelles.

Autonomous Character-Scene Interaction Synthesis from Text Instruction

papers.abstract

Support