WalkTheDog: Allineamento del Movimento Trans-Morfologico tramite Varietà di Fase
WalkTheDog: Cross-Morphology Motion Alignment via Phase Manifolds
July 11, 2024
Autori: Peizhuo Li, Sebastian Starke, Yuting Ye, Olga Sorkine-Hornung
cs.AI
Abstract
Presentiamo un nuovo approccio per comprendere la struttura di periodicità e la semantica di dataset di movimento, indipendentemente dalla morfologia e dalla struttura scheletrica dei personaggi. A differenza dei metodi esistenti che utilizzano uno spazio latente ad alta dimensionalità eccessivamente sparso, proponiamo una varietà di fase composta da multiple curve chiuse, ciascuna corrispondente a un'ampiezza latente. Con il nostro autoencoder periodico a quantizzazione vettoriale proposto, apprendiamo una varietà di fase condivisa per più personaggi, come un umano e un cane, senza alcuna supervisione. Questo è ottenuto sfruttando la struttura discreta e una rete poco profonda come colli di bottiglia, in modo che movimenti semanticamente simili siano raggruppati nella stessa curva della varietà, e i movimenti all'interno della stessa componente siano allineati temporalmente dalla variabile di fase. In combinazione con un framework migliorato di corrispondenza del movimento, dimostriamo la capacità della varietà di allineamento temporale e semantico in diverse applicazioni, tra cui il recupero, il trasferimento e la stilizzazione del movimento. Il codice e i modelli pre-addestrati per questo articolo sono disponibili all'indirizzo https://peizhuoli.github.io/walkthedog.
English
We present a new approach for understanding the periodicity structure and
semantics of motion datasets, independently of the morphology and skeletal
structure of characters. Unlike existing methods using an overly sparse
high-dimensional latent, we propose a phase manifold consisting of multiple
closed curves, each corresponding to a latent amplitude. With our proposed
vector quantized periodic autoencoder, we learn a shared phase manifold for
multiple characters, such as a human and a dog, without any supervision. This
is achieved by exploiting the discrete structure and a shallow network as
bottlenecks, such that semantically similar motions are clustered into the same
curve of the manifold, and the motions within the same component are aligned
temporally by the phase variable. In combination with an improved motion
matching framework, we demonstrate the manifold's capability of timing and
semantics alignment in several applications, including motion retrieval,
transfer and stylization. Code and pre-trained models for this paper are
available at https://peizhuoli.github.io/walkthedog.