UniPose : Un cadre multimodal unifié pour la compréhension, la génération et l'édition de la pose humaine
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
November 25, 2024
Auteurs: Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
cs.AI
Résumé
La pose humaine joue un rôle crucial à l'ère numérique. Alors que des travaux récents ont réalisé des progrès impressionnants dans la compréhension et la génération des poses humaines, ils soutiennent souvent uniquement une seule modalité de signaux de contrôle et fonctionnent de manière isolée, limitant leur application dans des scénarios du monde réel. Cet article présente UniPose, un cadre utilisant de grands modèles de langage (LLM) pour comprendre, générer et éditer des poses humaines à travers diverses modalités, y compris les images, le texte et les poses 3D SMPL. Plus précisément, nous appliquons un tokeniseur de pose pour convertir les poses 3D en tokens de pose discrets, permettant une intégration transparente dans le LLM au sein d'un vocabulaire unifié. Pour améliorer davantage les capacités de perception des poses détaillées, nous facilitons UniPose avec un mélange d'encodeurs visuels, parmi lesquels un encodeur visuel spécifique aux poses. Bénéficiant d'une stratégie d'apprentissage unifiée, UniPose transfère efficacement les connaissances entre différentes tâches liées aux poses, s'adapte à des tâches inconnues et présente des capacités étendues. Ce travail constitue la première tentative de construction d'un cadre polyvalent pour la compréhension, la génération et l'édition des poses. Des expériences approfondies mettent en évidence les performances compétitives voire supérieures d'UniPose dans diverses tâches liées aux poses.
English
Human pose plays a crucial role in the digital age. While recent works have
achieved impressive progress in understanding and generating human poses, they
often support only a single modality of control signals and operate in
isolation, limiting their application in real-world scenarios. This paper
presents UniPose, a framework employing Large Language Models (LLMs) to
comprehend, generate, and edit human poses across various modalities, including
images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to
convert 3D poses into discrete pose tokens, enabling seamless integration into
the LLM within a unified vocabulary. To further enhance the fine-grained pose
perception capabilities, we facilitate UniPose with a mixture of visual
encoders, among them a pose-specific visual encoder. Benefiting from a unified
learning strategy, UniPose effectively transfers knowledge across different
pose-relevant tasks, adapts to unseen tasks, and exhibits extended
capabilities. This work serves as the first attempt at building a
general-purpose framework for pose comprehension, generation, and editing.
Extensive experiments highlight UniPose's competitive and even superior
performance across various pose-relevant tasks.Summary
AI-Generated Summary