Síntesis Autónoma de Interacción Personaje-Escena a partir de Instrucciones de Texto

Resumen

La síntesis de movimientos humanos en entornos 3D, especialmente aquellos con actividades complejas como locomoción, alcance de manos e interacción humano-objeto, presenta demandas sustanciales de puntos de referencia definidos por el usuario y transiciones de etapas. Estos requisitos plantean desafíos para los modelos actuales, lo que resulta en una brecha notable en la automatización de la animación de personajes a partir de entradas humanas simples. Este artículo aborda este desafío al presentar un marco integral para sintetizar movimientos de interacción con el entorno en múltiples etapas directamente a partir de una sola instrucción de texto y una ubicación objetivo. Nuestro enfoque emplea un modelo de difusión auto-regresivo para sintetizar el siguiente segmento de movimiento, junto con un programador autónomo que predice la transición para cada etapa de acción. Para garantizar que los movimientos sintetizados se integren de manera fluida en el entorno, proponemos una representación del escenario que considera la percepción local tanto en el inicio como en la ubicación objetivo. Mejoramos aún más la coherencia del movimiento generado al integrar incrustaciones de fotogramas con la entrada de lenguaje. Además, para respaldar el entrenamiento del modelo, presentamos un conjunto de datos de captura de movimiento integral que comprende 16 horas de secuencias de movimiento en 120 escenas interiores que cubren 40 tipos de movimientos, cada uno anotado con descripciones de lenguaje precisas. Los resultados experimentales demuestran la eficacia de nuestro método en la generación de movimientos de alta calidad y en múltiples etapas, estrechamente alineados con las condiciones ambientales y textuales.

English

Synthesizing human motions in 3D environments, particularly those with complex activities such as locomotion, hand-reaching, and human-object interaction, presents substantial demands for user-defined waypoints and stage transitions. These requirements pose challenges for current models, leading to a notable gap in automating the animation of characters from simple human inputs. This paper addresses this challenge by introducing a comprehensive framework for synthesizing multi-stage scene-aware interaction motions directly from a single text instruction and goal location. Our approach employs an auto-regressive diffusion model to synthesize the next motion segment, along with an autonomous scheduler predicting the transition for each action stage. To ensure that the synthesized motions are seamlessly integrated within the environment, we propose a scene representation that considers the local perception both at the start and the goal location. We further enhance the coherence of the generated motion by integrating frame embeddings with language input. Additionally, to support model training, we present a comprehensive motion-captured dataset comprising 16 hours of motion sequences in 120 indoor scenes covering 40 types of motions, each annotated with precise language descriptions. Experimental results demonstrate the efficacy of our method in generating high-quality, multi-stage motions closely aligned with environmental and textual conditions.

Síntesis Autónoma de Interacción Personaje-Escena a partir de Instrucciones de Texto

Autonomous Character-Scene Interaction Synthesis from Text Instruction

Resumen

Support