Synthèse autonome de l'interaction entre les personnages et les scènes à partir d'instructions textuelles.
Autonomous Character-Scene Interaction Synthesis from Text Instruction
October 4, 2024
Auteurs: Nan Jiang, Zimo He, Zi Wang, Hongjie Li, Yixin Chen, Siyuan Huang, Yixin Zhu
cs.AI
Résumé
La synthèse des mouvements humains dans des environnements 3D, en particulier ceux impliquant des activités complexes telles que la locomotion, l'atteinte d'objets à la main et l'interaction humain-objet, présente des exigences substantielles en termes de points de passage définis par l'utilisateur et de transitions de scène. Ces exigences posent des défis pour les modèles actuels, entraînant un écart notable dans l'automatisation de l'animation de personnages à partir de simples entrées humaines. Cet article aborde ce défi en introduisant un cadre complet pour la synthèse de mouvements d'interaction scénique multi-étapes directement à partir d'une seule instruction textuelle et d'une localisation d'objectif. Notre approche utilise un modèle de diffusion auto-régressif pour synthétiser le segment de mouvement suivant, ainsi qu'un planificateur autonome prédisant la transition pour chaque étape d'action. Pour garantir que les mouvements synthétisés s'intègrent de manière transparente dans l'environnement, nous proposons une représentation de scène qui prend en compte la perception locale à la fois au point de départ et à l'objectif. Nous améliorons en outre la cohérence du mouvement généré en intégrant des plongements de trame avec l'entrée linguistique. De plus, pour soutenir l'entraînement du modèle, nous présentons un ensemble de données complet de capture de mouvement comprenant 16 heures de séquences de mouvement dans 120 scènes intérieures couvrant 40 types de mouvements, chacun annoté avec des descriptions linguistiques précises. Les résultats expérimentaux démontrent l'efficacité de notre méthode dans la génération de mouvements multi-étapes de haute qualité étroitement alignés sur les conditions environnementales et textuelles.
English
Synthesizing human motions in 3D environments, particularly those with
complex activities such as locomotion, hand-reaching, and human-object
interaction, presents substantial demands for user-defined waypoints and stage
transitions. These requirements pose challenges for current models, leading to
a notable gap in automating the animation of characters from simple human
inputs. This paper addresses this challenge by introducing a comprehensive
framework for synthesizing multi-stage scene-aware interaction motions directly
from a single text instruction and goal location. Our approach employs an
auto-regressive diffusion model to synthesize the next motion segment, along
with an autonomous scheduler predicting the transition for each action stage.
To ensure that the synthesized motions are seamlessly integrated within the
environment, we propose a scene representation that considers the local
perception both at the start and the goal location. We further enhance the
coherence of the generated motion by integrating frame embeddings with language
input. Additionally, to support model training, we present a comprehensive
motion-captured dataset comprising 16 hours of motion sequences in 120 indoor
scenes covering 40 types of motions, each annotated with precise language
descriptions. Experimental results demonstrate the efficacy of our method in
generating high-quality, multi-stage motions closely aligned with environmental
and textual conditions.Summary
AI-Generated Summary