UniPose : Un cadre multimodal unifié pour la compréhension, la génération et l'édition de la pose humaine

Résumé

La pose humaine joue un rôle crucial à l'ère numérique. Alors que des travaux récents ont réalisé des progrès impressionnants dans la compréhension et la génération des poses humaines, ils soutiennent souvent uniquement une seule modalité de signaux de contrôle et fonctionnent de manière isolée, limitant leur application dans des scénarios du monde réel. Cet article présente UniPose, un cadre utilisant de grands modèles de langage (LLM) pour comprendre, générer et éditer des poses humaines à travers diverses modalités, y compris les images, le texte et les poses 3D SMPL. Plus précisément, nous appliquons un tokeniseur de pose pour convertir les poses 3D en tokens de pose discrets, permettant une intégration transparente dans le LLM au sein d'un vocabulaire unifié. Pour améliorer davantage les capacités de perception des poses détaillées, nous facilitons UniPose avec un mélange d'encodeurs visuels, parmi lesquels un encodeur visuel spécifique aux poses. Bénéficiant d'une stratégie d'apprentissage unifiée, UniPose transfère efficacement les connaissances entre différentes tâches liées aux poses, s'adapte à des tâches inconnues et présente des capacités étendues. Ce travail constitue la première tentative de construction d'un cadre polyvalent pour la compréhension, la génération et l'édition des poses. Des expériences approfondies mettent en évidence les performances compétitives voire supérieures d'UniPose dans diverses tâches liées aux poses.

English

Human pose plays a crucial role in the digital age. While recent works have achieved impressive progress in understanding and generating human poses, they often support only a single modality of control signals and operate in isolation, limiting their application in real-world scenarios. This paper presents UniPose, a framework employing Large Language Models (LLMs) to comprehend, generate, and edit human poses across various modalities, including images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to convert 3D poses into discrete pose tokens, enabling seamless integration into the LLM within a unified vocabulary. To further enhance the fine-grained pose perception capabilities, we facilitate UniPose with a mixture of visual encoders, among them a pose-specific visual encoder. Benefiting from a unified learning strategy, UniPose effectively transfers knowledge across different pose-relevant tasks, adapts to unseen tasks, and exhibits extended capabilities. This work serves as the first attempt at building a general-purpose framework for pose comprehension, generation, and editing. Extensive experiments highlight UniPose's competitive and even superior performance across various pose-relevant tasks.