UniPose: Un marco unificado multimodal para la comprensión, generación y edición de posturas humanas

Resumen

La postura humana juega un papel crucial en la era digital. Si bien trabajos recientes han logrado un progreso impresionante en la comprensión y generación de posturas humanas, a menudo solo admiten una sola modalidad de señales de control y operan de forma aislada, limitando su aplicación en escenarios del mundo real. Este artículo presenta UniPose, un marco que emplea Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) para comprender, generar y editar posturas humanas en diversas modalidades, incluidas imágenes, texto y posturas 3D de SMPL. Específicamente, aplicamos un tokenizador de posturas para convertir posturas 3D en tokens de postura discretos, lo que permite una integración fluida en el LLM dentro de un vocabulario unificado. Para mejorar aún más las capacidades de percepción de posturas detalladas, facilitamos a UniPose con una mezcla de codificadores visuales, entre ellos un codificador visual específico de posturas. Beneficiándose de una estrategia de aprendizaje unificada, UniPose transfiere eficazmente conocimientos entre diferentes tareas relevantes para las posturas, se adapta a tareas no vistas y muestra capacidades extendidas. Este trabajo sirve como el primer intento de construir un marco de propósito general para la comprensión, generación y edición de posturas. Experimentos extensos resaltan el rendimiento competitivo e incluso superior de UniPose en diversas tareas relevantes para las posturas.

English

Human pose plays a crucial role in the digital age. While recent works have achieved impressive progress in understanding and generating human poses, they often support only a single modality of control signals and operate in isolation, limiting their application in real-world scenarios. This paper presents UniPose, a framework employing Large Language Models (LLMs) to comprehend, generate, and edit human poses across various modalities, including images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to convert 3D poses into discrete pose tokens, enabling seamless integration into the LLM within a unified vocabulary. To further enhance the fine-grained pose perception capabilities, we facilitate UniPose with a mixture of visual encoders, among them a pose-specific visual encoder. Benefiting from a unified learning strategy, UniPose effectively transfers knowledge across different pose-relevant tasks, adapts to unseen tasks, and exhibits extended capabilities. This work serves as the first attempt at building a general-purpose framework for pose comprehension, generation, and editing. Extensive experiments highlight UniPose's competitive and even superior performance across various pose-relevant tasks.

UniPose: Un marco unificado multimodal para la comprensión, generación y edición de posturas humanas

UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Resumen

Support