Autonome Charakter-Szenen-Interaktions-Synthese aus Textanweisungen
Autonomous Character-Scene Interaction Synthesis from Text Instruction
October 4, 2024
Autoren: Nan Jiang, Zimo He, Zi Wang, Hongjie Li, Yixin Chen, Siyuan Huang, Yixin Zhu
cs.AI
Zusammenfassung
Die Synthese menschlicher Bewegungen in 3D-Umgebungen, insbesondere solche mit komplexen Aktivitäten wie Fortbewegung, Handgreifen und menschlich-objektinteraktion, stellt erhebliche Anforderungen an benutzerdefinierte Wegpunkte und Bühnenübergänge. Diese Anforderungen stellen Herausforderungen für aktuelle Modelle dar, was zu einer deutlichen Lücke bei der Automatisierung der Animation von Charakteren aus einfachen menschlichen Eingaben führt. Dieser Artikel befasst sich mit dieser Herausforderung, indem er ein umfassendes Rahmenwerk zur Synthese von mehrstufigen szenenbewussten Interaktionsbewegungen direkt aus einer einzigen Textanweisung und Zielort einführt. Unser Ansatz verwendet ein autoregressives Diffusionsmodell zur Synthese des nächsten Bewegungssegments sowie einen autonomen Zeitplaner, der den Übergang für jede Aktionsstufe vorhersagt. Um sicherzustellen, dass die synthetisierten Bewegungen nahtlos in die Umgebung integriert sind, schlagen wir eine Szenendarstellung vor, die die lokale Wahrnehmung sowohl am Start- als auch am Zielort berücksichtigt. Wir verbessern die Kohärenz der generierten Bewegung weiter, indem wir Frame-Embeddings mit Spracheingaben integrieren. Darüber hinaus präsentieren wir zur Unterstützung des Modelltrainings einen umfassenden Motion-Capture-Datensatz, der 16 Stunden Bewegungssequenzen in 120 Innenräumen umfasst und 40 Arten von Bewegungen abdeckt, die jeweils mit präzisen Sprachbeschreibungen versehen sind. Experimentelle Ergebnisse zeigen die Wirksamkeit unserer Methode bei der Erzeugung hochwertiger, mehrstufiger Bewegungen, die eng mit Umgebungs- und Textbedingungen übereinstimmen.
English
Synthesizing human motions in 3D environments, particularly those with
complex activities such as locomotion, hand-reaching, and human-object
interaction, presents substantial demands for user-defined waypoints and stage
transitions. These requirements pose challenges for current models, leading to
a notable gap in automating the animation of characters from simple human
inputs. This paper addresses this challenge by introducing a comprehensive
framework for synthesizing multi-stage scene-aware interaction motions directly
from a single text instruction and goal location. Our approach employs an
auto-regressive diffusion model to synthesize the next motion segment, along
with an autonomous scheduler predicting the transition for each action stage.
To ensure that the synthesized motions are seamlessly integrated within the
environment, we propose a scene representation that considers the local
perception both at the start and the goal location. We further enhance the
coherence of the generated motion by integrating frame embeddings with language
input. Additionally, to support model training, we present a comprehensive
motion-captured dataset comprising 16 hours of motion sequences in 120 indoor
scenes covering 40 types of motions, each annotated with precise language
descriptions. Experimental results demonstrate the efficacy of our method in
generating high-quality, multi-stage motions closely aligned with environmental
and textual conditions.Summary
AI-Generated Summary