ChatPaper.aiChatPaper

Autonome Charakter-Szenen-Interaktions-Synthese aus Textanweisungen

Autonomous Character-Scene Interaction Synthesis from Text Instruction

October 4, 2024
Autoren: Nan Jiang, Zimo He, Zi Wang, Hongjie Li, Yixin Chen, Siyuan Huang, Yixin Zhu
cs.AI

Zusammenfassung

Die Synthese menschlicher Bewegungen in 3D-Umgebungen, insbesondere solche mit komplexen Aktivitäten wie Fortbewegung, Handgreifen und menschlich-objektinteraktion, stellt erhebliche Anforderungen an benutzerdefinierte Wegpunkte und Bühnenübergänge. Diese Anforderungen stellen Herausforderungen für aktuelle Modelle dar, was zu einer deutlichen Lücke bei der Automatisierung der Animation von Charakteren aus einfachen menschlichen Eingaben führt. Dieser Artikel befasst sich mit dieser Herausforderung, indem er ein umfassendes Rahmenwerk zur Synthese von mehrstufigen szenenbewussten Interaktionsbewegungen direkt aus einer einzigen Textanweisung und Zielort einführt. Unser Ansatz verwendet ein autoregressives Diffusionsmodell zur Synthese des nächsten Bewegungssegments sowie einen autonomen Zeitplaner, der den Übergang für jede Aktionsstufe vorhersagt. Um sicherzustellen, dass die synthetisierten Bewegungen nahtlos in die Umgebung integriert sind, schlagen wir eine Szenendarstellung vor, die die lokale Wahrnehmung sowohl am Start- als auch am Zielort berücksichtigt. Wir verbessern die Kohärenz der generierten Bewegung weiter, indem wir Frame-Embeddings mit Spracheingaben integrieren. Darüber hinaus präsentieren wir zur Unterstützung des Modelltrainings einen umfassenden Motion-Capture-Datensatz, der 16 Stunden Bewegungssequenzen in 120 Innenräumen umfasst und 40 Arten von Bewegungen abdeckt, die jeweils mit präzisen Sprachbeschreibungen versehen sind. Experimentelle Ergebnisse zeigen die Wirksamkeit unserer Methode bei der Erzeugung hochwertiger, mehrstufiger Bewegungen, die eng mit Umgebungs- und Textbedingungen übereinstimmen.
English
Synthesizing human motions in 3D environments, particularly those with complex activities such as locomotion, hand-reaching, and human-object interaction, presents substantial demands for user-defined waypoints and stage transitions. These requirements pose challenges for current models, leading to a notable gap in automating the animation of characters from simple human inputs. This paper addresses this challenge by introducing a comprehensive framework for synthesizing multi-stage scene-aware interaction motions directly from a single text instruction and goal location. Our approach employs an auto-regressive diffusion model to synthesize the next motion segment, along with an autonomous scheduler predicting the transition for each action stage. To ensure that the synthesized motions are seamlessly integrated within the environment, we propose a scene representation that considers the local perception both at the start and the goal location. We further enhance the coherence of the generated motion by integrating frame embeddings with language input. Additionally, to support model training, we present a comprehensive motion-captured dataset comprising 16 hours of motion sequences in 120 indoor scenes covering 40 types of motions, each annotated with precise language descriptions. Experimental results demonstrate the efficacy of our method in generating high-quality, multi-stage motions closely aligned with environmental and textual conditions.

Summary

AI-Generated Summary

PDF72November 16, 2024