Ponimator: Desplegando la Pose Interactiva para la Animación Versátil de Interacciones Humano-Humano
Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation
October 16, 2025
Autores: Shaowei Liu, Chuan Guo, Bing Zhou, Jian Wang
cs.AI
Resumen
Las posturas interactivas de humanos en proximidad cercana transmiten información contextual rica sobre la dinámica de la interacción. Dadas tales posturas, los humanos pueden inferir intuitivamente el contexto y anticipar posibles dinámicas pasadas y futuras, basándose en fuertes conocimientos previos sobre el comportamiento humano. Inspirados por esta observación, proponemos Ponimator, un marco simple anclado en posturas interactivas proximales para la animación versátil de interacciones. Nuestros datos de entrenamiento consisten en posturas de dos personas en contacto cercano y su contexto temporal circundante, extraídos de conjuntos de datos de interacción capturados mediante motion capture. Aprovechando los conocimientos previos sobre posturas interactivas, Ponimator emplea dos modelos de difusión condicional: (1) un animador de posturas que utiliza el conocimiento temporal para generar secuencias de movimiento dinámico a partir de posturas interactivas, y (2) un generador de posturas que aplica el conocimiento espacial para sintetizar posturas interactivas a partir de una sola postura, texto, o ambos cuando las posturas interactivas no están disponibles. En conjunto, Ponimator admite diversas tareas, incluyendo la animación de interacciones basada en imágenes, la animación de reacciones y la síntesis de interacciones a partir de texto, facilitando la transferencia de conocimiento sobre interacciones desde datos de mocap de alta calidad a escenarios de mundo abierto. Experimentos empíricos en diversos conjuntos de datos y aplicaciones demuestran la universalidad del conocimiento previo sobre posturas y la efectividad y robustez de nuestro marco.
English
Close-proximity human-human interactive poses convey rich contextual
information about interaction dynamics. Given such poses, humans can
intuitively infer the context and anticipate possible past and future dynamics,
drawing on strong priors of human behavior. Inspired by this observation, we
propose Ponimator, a simple framework anchored on proximal interactive poses
for versatile interaction animation. Our training data consists of
close-contact two-person poses and their surrounding temporal context from
motion-capture interaction datasets. Leveraging interactive pose priors,
Ponimator employs two conditional diffusion models: (1) a pose animator that
uses the temporal prior to generate dynamic motion sequences from interactive
poses, and (2) a pose generator that applies the spatial prior to synthesize
interactive poses from a single pose, text, or both when interactive poses are
unavailable. Collectively, Ponimator supports diverse tasks, including
image-based interaction animation, reaction animation, and text-to-interaction
synthesis, facilitating the transfer of interaction knowledge from high-quality
mocap data to open-world scenarios. Empirical experiments across diverse
datasets and applications demonstrate the universality of the pose prior and
the effectiveness and robustness of our framework.