UniPose: Een Verenigd Multimodaal Framework voor Begrip, Generatie en Bewerking van Menselijke Houdingen

Samenvatting

De houding van mensen speelt een cruciale rol in het digitale tijdperk. Hoewel recente werken indrukwekkende vooruitgang hebben geboekt in het begrijpen en genereren van menselijke poses, ondersteunen ze vaak slechts een enkele modaliteit van besturingsignalen en opereren ze geïsoleerd, wat hun toepassing in real-world scenario's beperkt. Dit artikel presenteert UniPose, een raamwerk dat gebruikmaakt van Grote Taalmodellen (LLM's) om menselijke poses te begrijpen, genereren en bewerken over verschillende modaliteiten, waaronder afbeeldingen, tekst en 3D SMPL-poses. Specifiek passen we een pose-tokenizer toe om 3D-poses om te zetten in discrete pose-tokens, waardoor naadloze integratie in het LLM binnen een eenduidige woordenschat mogelijk is. Om de fijnmazige pose-perceptievermogens verder te verbeteren, faciliteren we UniPose met een mix van visuele encoders, waaronder een pose-specifieke visuele encoder. Door gebruik te maken van een eenduidige leermethode, draagt UniPose effectief kennis over tussen verschillende pose-gerelateerde taken, past zich aan ongeziene taken aan en vertoont uitgebreide mogelijkheden. Dit werk dient als de eerste poging om een algemeen raamwerk voor posebegrip, -generatie en -bewerking te bouwen. Uitgebreide experimenten benadrukken de competitieve en zelfs superieure prestaties van UniPose over verschillende pose-gerelateerde taken.

English

Human pose plays a crucial role in the digital age. While recent works have achieved impressive progress in understanding and generating human poses, they often support only a single modality of control signals and operate in isolation, limiting their application in real-world scenarios. This paper presents UniPose, a framework employing Large Language Models (LLMs) to comprehend, generate, and edit human poses across various modalities, including images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to convert 3D poses into discrete pose tokens, enabling seamless integration into the LLM within a unified vocabulary. To further enhance the fine-grained pose perception capabilities, we facilitate UniPose with a mixture of visual encoders, among them a pose-specific visual encoder. Benefiting from a unified learning strategy, UniPose effectively transfers knowledge across different pose-relevant tasks, adapts to unseen tasks, and exhibits extended capabilities. This work serves as the first attempt at building a general-purpose framework for pose comprehension, generation, and editing. Extensive experiments highlight UniPose's competitive and even superior performance across various pose-relevant tasks.

UniPose: Een Verenigd Multimodaal Framework voor Begrip, Generatie en Bewerking van Menselijke Houdingen

UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing

Samenvatting

Summary

Support

Support