Síntesis Autónoma de Interacción Personaje-Escena a partir de Instrucciones de Texto
Autonomous Character-Scene Interaction Synthesis from Text Instruction
October 4, 2024
Autores: Nan Jiang, Zimo He, Zi Wang, Hongjie Li, Yixin Chen, Siyuan Huang, Yixin Zhu
cs.AI
Resumen
La síntesis de movimientos humanos en entornos 3D, especialmente aquellos con actividades complejas como locomoción, alcance de manos e interacción humano-objeto, presenta demandas sustanciales de puntos de referencia definidos por el usuario y transiciones de etapas. Estos requisitos plantean desafíos para los modelos actuales, lo que resulta en una brecha notable en la automatización de la animación de personajes a partir de entradas humanas simples. Este artículo aborda este desafío al presentar un marco integral para sintetizar movimientos de interacción con el entorno en múltiples etapas directamente a partir de una sola instrucción de texto y una ubicación objetivo. Nuestro enfoque emplea un modelo de difusión auto-regresivo para sintetizar el siguiente segmento de movimiento, junto con un programador autónomo que predice la transición para cada etapa de acción. Para garantizar que los movimientos sintetizados se integren de manera fluida en el entorno, proponemos una representación del escenario que considera la percepción local tanto en el inicio como en la ubicación objetivo. Mejoramos aún más la coherencia del movimiento generado al integrar incrustaciones de fotogramas con la entrada de lenguaje. Además, para respaldar el entrenamiento del modelo, presentamos un conjunto de datos de captura de movimiento integral que comprende 16 horas de secuencias de movimiento en 120 escenas interiores que cubren 40 tipos de movimientos, cada uno anotado con descripciones de lenguaje precisas. Los resultados experimentales demuestran la eficacia de nuestro método en la generación de movimientos de alta calidad y en múltiples etapas, estrechamente alineados con las condiciones ambientales y textuales.
English
Synthesizing human motions in 3D environments, particularly those with
complex activities such as locomotion, hand-reaching, and human-object
interaction, presents substantial demands for user-defined waypoints and stage
transitions. These requirements pose challenges for current models, leading to
a notable gap in automating the animation of characters from simple human
inputs. This paper addresses this challenge by introducing a comprehensive
framework for synthesizing multi-stage scene-aware interaction motions directly
from a single text instruction and goal location. Our approach employs an
auto-regressive diffusion model to synthesize the next motion segment, along
with an autonomous scheduler predicting the transition for each action stage.
To ensure that the synthesized motions are seamlessly integrated within the
environment, we propose a scene representation that considers the local
perception both at the start and the goal location. We further enhance the
coherence of the generated motion by integrating frame embeddings with language
input. Additionally, to support model training, we present a comprehensive
motion-captured dataset comprising 16 hours of motion sequences in 120 indoor
scenes covering 40 types of motions, each annotated with precise language
descriptions. Experimental results demonstrate the efficacy of our method in
generating high-quality, multi-stage motions closely aligned with environmental
and textual conditions.Summary
AI-Generated Summary