Ponimator: Interactieve Pose Ontvouwen voor Veelzijdige Mens-mens Interactie-animatie
Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation
October 16, 2025
Auteurs: Shaowei Liu, Chuan Guo, Bing Zhou, Jian Wang
cs.AI
Samenvatting
Close-proximity menselijke interactieposities bevatten rijke contextuele informatie over interactiedynamiek. Gegeven dergelijke posities kunnen mensen intuïtief de context afleiden en mogelijke dynamiek uit het verleden en de toekomst anticiperen, waarbij ze steunen op sterke aannames over menselijk gedrag. Geïnspireerd door deze observatie stellen we Ponimator voor, een eenvoudig raamwerk dat is verankerd in proximale interactieposities voor veelzijdige interactie-animatie. Onze trainingsdata bestaat uit close-contact posities van twee personen en hun omringende temporele context uit motion-capture interactiedatasets. Door gebruik te maken van interactiepose-aannames, zet Ponimator twee conditionele diffusiemodellen in: (1) een pose-animator die het temporele aanname gebruikt om dynamische bewegingssequenties te genereren vanuit interactieposities, en (2) een pose-generator die het ruimtelijke aanname toepast om interactieposities te synthetiseren vanuit een enkele pose, tekst, of beide wanneer interactieposities niet beschikbaar zijn. Collectief ondersteunt Ponimator diverse taken, waaronder beeldgebaseerde interactie-animatie, reactie-animatie en tekst-naar-interactie-synthese, waardoor de overdracht van interactiekennis van hoogwaardige mocap-data naar open-wereldscenario's wordt gefaciliteerd. Empirische experimenten over diverse datasets en toepassingen demonstreren de universaliteit van het pose-aanname en de effectiviteit en robuustheid van ons raamwerk.
English
Close-proximity human-human interactive poses convey rich contextual
information about interaction dynamics. Given such poses, humans can
intuitively infer the context and anticipate possible past and future dynamics,
drawing on strong priors of human behavior. Inspired by this observation, we
propose Ponimator, a simple framework anchored on proximal interactive poses
for versatile interaction animation. Our training data consists of
close-contact two-person poses and their surrounding temporal context from
motion-capture interaction datasets. Leveraging interactive pose priors,
Ponimator employs two conditional diffusion models: (1) a pose animator that
uses the temporal prior to generate dynamic motion sequences from interactive
poses, and (2) a pose generator that applies the spatial prior to synthesize
interactive poses from a single pose, text, or both when interactive poses are
unavailable. Collectively, Ponimator supports diverse tasks, including
image-based interaction animation, reaction animation, and text-to-interaction
synthesis, facilitating the transfer of interaction knowledge from high-quality
mocap data to open-world scenarios. Empirical experiments across diverse
datasets and applications demonstrate the universality of the pose prior and
the effectiveness and robustness of our framework.