ChatPaper.aiChatPaper

UniPose: Um Framework Multimodal Unificado para Compreensão, Geração e Edição de Postura Humana

UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

November 25, 2024
Autores: Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
cs.AI

Resumo

A pose humana desempenha um papel crucial na era digital. Embora trabalhos recentes tenham alcançado progressos impressionantes na compreensão e geração de poses humanas, muitas vezes suportam apenas uma única modalidade de sinais de controle e operam de forma isolada, limitando sua aplicação em cenários do mundo real. Este artigo apresenta UniPose, um framework que emprega Modelos de Linguagem Grandes (LLMs) para compreender, gerar e editar poses humanas em várias modalidades, incluindo imagens, texto e poses 3D SMPL. Especificamente, aplicamos um tokenizador de pose para converter poses 3D em tokens de pose discretos, possibilitando integração perfeita no LLM dentro de um vocabulário unificado. Para aprimorar ainda mais as capacidades de percepção de pose detalhada, facilitamos o UniPose com uma mistura de codificadores visuais, incluindo um codificador visual específico para poses. Beneficiando-se de uma estratégia de aprendizado unificada, o UniPose transfere efetivamente conhecimento entre diferentes tarefas relevantes para poses, se adapta a tarefas não vistas e demonstra capacidades estendidas. Este trabalho representa a primeira tentativa de construir um framework de propósito geral para compreensão, geração e edição de poses. Experimentos extensivos destacam o desempenho competitivo e até superior do UniPose em várias tarefas relevantes para poses.
English
Human pose plays a crucial role in the digital age. While recent works have achieved impressive progress in understanding and generating human poses, they often support only a single modality of control signals and operate in isolation, limiting their application in real-world scenarios. This paper presents UniPose, a framework employing Large Language Models (LLMs) to comprehend, generate, and edit human poses across various modalities, including images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to convert 3D poses into discrete pose tokens, enabling seamless integration into the LLM within a unified vocabulary. To further enhance the fine-grained pose perception capabilities, we facilitate UniPose with a mixture of visual encoders, among them a pose-specific visual encoder. Benefiting from a unified learning strategy, UniPose effectively transfers knowledge across different pose-relevant tasks, adapts to unseen tasks, and exhibits extended capabilities. This work serves as the first attempt at building a general-purpose framework for pose comprehension, generation, and editing. Extensive experiments highlight UniPose's competitive and even superior performance across various pose-relevant tasks.
PDF134November 28, 2024