UniPose: Um Framework Multimodal Unificado para Compreensão, Geração e Edição de Postura Humana
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
November 25, 2024
Autores: Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
cs.AI
Resumo
A pose humana desempenha um papel crucial na era digital. Embora trabalhos recentes tenham alcançado progressos impressionantes na compreensão e geração de poses humanas, muitas vezes suportam apenas uma única modalidade de sinais de controle e operam de forma isolada, limitando sua aplicação em cenários do mundo real. Este artigo apresenta UniPose, um framework que emprega Modelos de Linguagem Grandes (LLMs) para compreender, gerar e editar poses humanas em várias modalidades, incluindo imagens, texto e poses 3D SMPL. Especificamente, aplicamos um tokenizador de pose para converter poses 3D em tokens de pose discretos, possibilitando integração perfeita no LLM dentro de um vocabulário unificado. Para aprimorar ainda mais as capacidades de percepção de pose detalhada, facilitamos o UniPose com uma mistura de codificadores visuais, incluindo um codificador visual específico para poses. Beneficiando-se de uma estratégia de aprendizado unificada, o UniPose transfere efetivamente conhecimento entre diferentes tarefas relevantes para poses, se adapta a tarefas não vistas e demonstra capacidades estendidas. Este trabalho representa a primeira tentativa de construir um framework de propósito geral para compreensão, geração e edição de poses. Experimentos extensivos destacam o desempenho competitivo e até superior do UniPose em várias tarefas relevantes para poses.
English
Human pose plays a crucial role in the digital age. While recent works have
achieved impressive progress in understanding and generating human poses, they
often support only a single modality of control signals and operate in
isolation, limiting their application in real-world scenarios. This paper
presents UniPose, a framework employing Large Language Models (LLMs) to
comprehend, generate, and edit human poses across various modalities, including
images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to
convert 3D poses into discrete pose tokens, enabling seamless integration into
the LLM within a unified vocabulary. To further enhance the fine-grained pose
perception capabilities, we facilitate UniPose with a mixture of visual
encoders, among them a pose-specific visual encoder. Benefiting from a unified
learning strategy, UniPose effectively transfers knowledge across different
pose-relevant tasks, adapts to unseen tasks, and exhibits extended
capabilities. This work serves as the first attempt at building a
general-purpose framework for pose comprehension, generation, and editing.
Extensive experiments highlight UniPose's competitive and even superior
performance across various pose-relevant tasks.