UniPose: Un marco unificado multimodal para la comprensión, generación y edición de posturas humanas
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
November 25, 2024
Autores: Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
cs.AI
Resumen
La postura humana juega un papel crucial en la era digital. Si bien trabajos recientes han logrado un progreso impresionante en la comprensión y generación de posturas humanas, a menudo solo admiten una sola modalidad de señales de control y operan de forma aislada, limitando su aplicación en escenarios del mundo real. Este artículo presenta UniPose, un marco que emplea Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) para comprender, generar y editar posturas humanas en diversas modalidades, incluidas imágenes, texto y posturas 3D de SMPL. Específicamente, aplicamos un tokenizador de posturas para convertir posturas 3D en tokens de postura discretos, lo que permite una integración fluida en el LLM dentro de un vocabulario unificado. Para mejorar aún más las capacidades de percepción de posturas detalladas, facilitamos a UniPose con una mezcla de codificadores visuales, entre ellos un codificador visual específico de posturas. Beneficiándose de una estrategia de aprendizaje unificada, UniPose transfiere eficazmente conocimientos entre diferentes tareas relevantes para las posturas, se adapta a tareas no vistas y muestra capacidades extendidas. Este trabajo sirve como el primer intento de construir un marco de propósito general para la comprensión, generación y edición de posturas. Experimentos extensos resaltan el rendimiento competitivo e incluso superior de UniPose en diversas tareas relevantes para las posturas.
English
Human pose plays a crucial role in the digital age. While recent works have
achieved impressive progress in understanding and generating human poses, they
often support only a single modality of control signals and operate in
isolation, limiting their application in real-world scenarios. This paper
presents UniPose, a framework employing Large Language Models (LLMs) to
comprehend, generate, and edit human poses across various modalities, including
images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to
convert 3D poses into discrete pose tokens, enabling seamless integration into
the LLM within a unified vocabulary. To further enhance the fine-grained pose
perception capabilities, we facilitate UniPose with a mixture of visual
encoders, among them a pose-specific visual encoder. Benefiting from a unified
learning strategy, UniPose effectively transfers knowledge across different
pose-relevant tasks, adapts to unseen tasks, and exhibits extended
capabilities. This work serves as the first attempt at building a
general-purpose framework for pose comprehension, generation, and editing.
Extensive experiments highlight UniPose's competitive and even superior
performance across various pose-relevant tasks.Summary
AI-Generated Summary