Ponimator: Desdobrando a Pose Interativa para Animação Versátil de Interação Humano-Humano
Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation
October 16, 2025
Autores: Shaowei Liu, Chuan Guo, Bing Zhou, Jian Wang
cs.AI
Resumo
Poses interativas de humanos em proximidade física transmitem informações contextuais ricas sobre a dinâmica da interação. Dadas tais poses, os humanos podem inferir intuitivamente o contexto e antecipar possíveis dinâmicas passadas e futuras, baseando-se em fortes prioris do comportamento humano. Inspirados por essa observação, propomos o Ponimator, uma estrutura simples ancorada em poses interativas proximais para animação versátil de interações. Nossos dados de treinamento consistem em poses de duas pessoas em contato próximo e seu contexto temporal circundante, extraídos de conjuntos de dados de interação capturados por sensores de movimento. Aproveitando as prioris de poses interativas, o Ponimator emprega dois modelos de difusão condicional: (1) um animador de poses que utiliza a priori temporal para gerar sequências dinâmicas de movimento a partir de poses interativas, e (2) um gerador de poses que aplica a priori espacial para sintetizar poses interativas a partir de uma única pose, texto ou ambos, quando poses interativas não estão disponíveis. Coletivamente, o Ponimator suporta diversas tarefas, incluindo animação de interação baseada em imagem, animação de reação e síntese de texto para interação, facilitando a transferência de conhecimento de interação de dados de captura de movimento de alta qualidade para cenários de mundo aberto. Experimentos empíricos em diversos conjuntos de dados e aplicações demonstram a universalidade da priori de poses e a eficácia e robustez de nossa estrutura.
English
Close-proximity human-human interactive poses convey rich contextual
information about interaction dynamics. Given such poses, humans can
intuitively infer the context and anticipate possible past and future dynamics,
drawing on strong priors of human behavior. Inspired by this observation, we
propose Ponimator, a simple framework anchored on proximal interactive poses
for versatile interaction animation. Our training data consists of
close-contact two-person poses and their surrounding temporal context from
motion-capture interaction datasets. Leveraging interactive pose priors,
Ponimator employs two conditional diffusion models: (1) a pose animator that
uses the temporal prior to generate dynamic motion sequences from interactive
poses, and (2) a pose generator that applies the spatial prior to synthesize
interactive poses from a single pose, text, or both when interactive poses are
unavailable. Collectively, Ponimator supports diverse tasks, including
image-based interaction animation, reaction animation, and text-to-interaction
synthesis, facilitating the transfer of interaction knowledge from high-quality
mocap data to open-world scenarios. Empirical experiments across diverse
datasets and applications demonstrate the universality of the pose prior and
the effectiveness and robustness of our framework.