ChatPaper.aiChatPaper

Ponimator : Déploiement interactif de la pose pour une animation polyvalente des interactions humaines

Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation

October 16, 2025
papers.authors: Shaowei Liu, Chuan Guo, Bing Zhou, Jian Wang
cs.AI

papers.abstract

Les poses interactives en proximité humaine-humaine véhiculent des informations contextuelles riches sur la dynamique des interactions. À partir de telles poses, les humains peuvent intuitivement déduire le contexte et anticiper les dynamiques passées et futures possibles, en s'appuyant sur des connaissances préalables solides du comportement humain. Inspirés par cette observation, nous proposons Ponimator, un cadre simple ancré sur les poses interactives proximales pour l'animation polyvalente des interactions. Nos données d'entraînement consistent en des poses de deux personnes en contact étroit et leur contexte temporel environnant, extraits de jeux de données d'interaction par capture de mouvement. En exploitant les connaissances préalables sur les poses interactives, Ponimator utilise deux modèles de diffusion conditionnels : (1) un animateur de poses qui utilise le contexte temporel pour générer des séquences de mouvements dynamiques à partir de poses interactives, et (2) un générateur de poses qui applique le contexte spatial pour synthétiser des poses interactives à partir d'une seule pose, d'un texte, ou des deux lorsque les poses interactives ne sont pas disponibles. Collectivement, Ponimator prend en charge diverses tâches, y compris l'animation d'interaction basée sur l'image, l'animation de réaction, et la synthèse d'interaction à partir de texte, facilitant ainsi le transfert de connaissances sur les interactions à partir de données de capture de mouvement de haute qualité vers des scénarios en monde ouvert. Des expériences empiriques sur divers jeux de données et applications démontrent l'universalité des connaissances préalables sur les poses ainsi que l'efficacité et la robustesse de notre cadre.
English
Close-proximity human-human interactive poses convey rich contextual information about interaction dynamics. Given such poses, humans can intuitively infer the context and anticipate possible past and future dynamics, drawing on strong priors of human behavior. Inspired by this observation, we propose Ponimator, a simple framework anchored on proximal interactive poses for versatile interaction animation. Our training data consists of close-contact two-person poses and their surrounding temporal context from motion-capture interaction datasets. Leveraging interactive pose priors, Ponimator employs two conditional diffusion models: (1) a pose animator that uses the temporal prior to generate dynamic motion sequences from interactive poses, and (2) a pose generator that applies the spatial prior to synthesize interactive poses from a single pose, text, or both when interactive poses are unavailable. Collectively, Ponimator supports diverse tasks, including image-based interaction animation, reaction animation, and text-to-interaction synthesis, facilitating the transfer of interaction knowledge from high-quality mocap data to open-world scenarios. Empirical experiments across diverse datasets and applications demonstrate the universality of the pose prior and the effectiveness and robustness of our framework.
PDF32December 21, 2025