Ponimator: Entfaltung interaktiver Posen für vielseitige Mensch-Mensch-Interaktionsanimation
Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation
October 16, 2025
papers.authors: Shaowei Liu, Chuan Guo, Bing Zhou, Jian Wang
cs.AI
papers.abstract
Nahbereichs-Posen menschlicher Interaktionen vermitteln umfangreiche kontextuelle Informationen über die Dynamik der Interaktion. Anhand solcher Posen können Menschen intuitiv den Kontext erschließen und mögliche vergangene und zukünftige Dynamiken antizipieren, indem sie auf starke Vorannahmen über menschliches Verhalten zurückgreifen. Inspiriert von dieser Beobachtung schlagen wir Ponimator vor, ein einfaches Framework, das auf proximalen interaktiven Posen basiert und vielseitige Interaktionsanimationen ermöglicht. Unsere Trainingsdaten bestehen aus Nahkontakt-Posen zweier Personen und ihrem zeitlichen Kontext aus Motion-Capture-Interaktionsdatensätzen. Unter Nutzung von Vorannahmen über interaktive Posen setzt Ponimator zwei bedingte Diffusionsmodelle ein: (1) einen Posenerzeuger, der das zeitliche Vorwissen nutzt, um dynamische Bewegungssequenzen aus interaktiven Posen zu generieren, und (2) einen Posengenerator, der das räumliche Vorwissen anwendet, um interaktive Posen aus einer einzelnen Pose, Text oder beidem zu synthetisieren, wenn interaktive Posen nicht verfügbar sind. Insgesamt unterstützt Ponimator diverse Aufgaben, darunter bildbasierte Interaktionsanimation, Reaktionsanimation und Text-zu-Interaktions-Synthese, und erleichtert so die Übertragung von Interaktionswissen aus hochwertigen Motion-Capture-Daten auf offene Szenarien. Empirische Experimente über verschiedene Datensätze und Anwendungen hinweg demonstrieren die Universalität des Pose-Vorwissens sowie die Effektivität und Robustheit unseres Frameworks.
English
Close-proximity human-human interactive poses convey rich contextual
information about interaction dynamics. Given such poses, humans can
intuitively infer the context and anticipate possible past and future dynamics,
drawing on strong priors of human behavior. Inspired by this observation, we
propose Ponimator, a simple framework anchored on proximal interactive poses
for versatile interaction animation. Our training data consists of
close-contact two-person poses and their surrounding temporal context from
motion-capture interaction datasets. Leveraging interactive pose priors,
Ponimator employs two conditional diffusion models: (1) a pose animator that
uses the temporal prior to generate dynamic motion sequences from interactive
poses, and (2) a pose generator that applies the spatial prior to synthesize
interactive poses from a single pose, text, or both when interactive poses are
unavailable. Collectively, Ponimator supports diverse tasks, including
image-based interaction animation, reaction animation, and text-to-interaction
synthesis, facilitating the transfer of interaction knowledge from high-quality
mocap data to open-world scenarios. Empirical experiments across diverse
datasets and applications demonstrate the universality of the pose prior and
the effectiveness and robustness of our framework.