WalkTheDog: Cross-Morfologische Bewegingsuitlijning via Fasevariëteiten
WalkTheDog: Cross-Morphology Motion Alignment via Phase Manifolds
July 11, 2024
Auteurs: Peizhuo Li, Sebastian Starke, Yuting Ye, Olga Sorkine-Hornung
cs.AI
Samenvatting
We presenteren een nieuwe benadering voor het begrijpen van de periodiciteitsstructuur en semantiek van bewegingsdatasets, onafhankelijk van de morfologie en skeletstructuur van karakters. In tegenstelling tot bestaande methoden die een te spaarzame hoogdimensionale latentie gebruiken, stellen we een fasemanifold voor die bestaat uit meerdere gesloten krommen, elk overeenkomend met een latente amplitude. Met onze voorgestelde vectorgekwantiseerde periodieke auto-encoder leren we een gedeelde fasemanifold voor meerdere karakters, zoals een mens en een hond, zonder enige supervisie. Dit wordt bereikt door gebruik te maken van de discrete structuur en een ondiep netwerk als bottlenecks, zodat semantisch vergelijkbare bewegingen worden gegroepeerd in dezelfde kromme van de manifold, en de bewegingen binnen dezelfde component tijdelijk worden uitgelijnd door de fasevariabele. In combinatie met een verbeterd motion matching-framework demonstreren we de mogelijkheid van de manifold voor timing- en semantiekuitlijning in verschillende toepassingen, waaronder bewegingsophaal, -overdracht en -stylering. Code en vooraf getrainde modellen voor dit artikel zijn beschikbaar op https://peizhuoli.github.io/walkthedog.
English
We present a new approach for understanding the periodicity structure and
semantics of motion datasets, independently of the morphology and skeletal
structure of characters. Unlike existing methods using an overly sparse
high-dimensional latent, we propose a phase manifold consisting of multiple
closed curves, each corresponding to a latent amplitude. With our proposed
vector quantized periodic autoencoder, we learn a shared phase manifold for
multiple characters, such as a human and a dog, without any supervision. This
is achieved by exploiting the discrete structure and a shallow network as
bottlenecks, such that semantically similar motions are clustered into the same
curve of the manifold, and the motions within the same component are aligned
temporally by the phase variable. In combination with an improved motion
matching framework, we demonstrate the manifold's capability of timing and
semantics alignment in several applications, including motion retrieval,
transfer and stylization. Code and pre-trained models for this paper are
available at https://peizhuoli.github.io/walkthedog.