UniPose: Een Verenigd Multimodaal Framework voor Begrip, Generatie en Bewerking van Menselijke Houdingen
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
November 25, 2024
Auteurs: Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
cs.AI
Samenvatting
De houding van mensen speelt een cruciale rol in het digitale tijdperk. Hoewel recente werken indrukwekkende vooruitgang hebben geboekt in het begrijpen en genereren van menselijke poses, ondersteunen ze vaak slechts een enkele modaliteit van besturingsignalen en opereren ze geïsoleerd, wat hun toepassing in real-world scenario's beperkt. Dit artikel presenteert UniPose, een raamwerk dat gebruikmaakt van Grote Taalmodellen (LLM's) om menselijke poses te begrijpen, genereren en bewerken over verschillende modaliteiten, waaronder afbeeldingen, tekst en 3D SMPL-poses. Specifiek passen we een pose-tokenizer toe om 3D-poses om te zetten in discrete pose-tokens, waardoor naadloze integratie in het LLM binnen een eenduidige woordenschat mogelijk is. Om de fijnmazige pose-perceptievermogens verder te verbeteren, faciliteren we UniPose met een mix van visuele encoders, waaronder een pose-specifieke visuele encoder. Door gebruik te maken van een eenduidige leermethode, draagt UniPose effectief kennis over tussen verschillende pose-gerelateerde taken, past zich aan ongeziene taken aan en vertoont uitgebreide mogelijkheden. Dit werk dient als de eerste poging om een algemeen raamwerk voor posebegrip, -generatie en -bewerking te bouwen. Uitgebreide experimenten benadrukken de competitieve en zelfs superieure prestaties van UniPose over verschillende pose-gerelateerde taken.
English
Human pose plays a crucial role in the digital age. While recent works have
achieved impressive progress in understanding and generating human poses, they
often support only a single modality of control signals and operate in
isolation, limiting their application in real-world scenarios. This paper
presents UniPose, a framework employing Large Language Models (LLMs) to
comprehend, generate, and edit human poses across various modalities, including
images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to
convert 3D poses into discrete pose tokens, enabling seamless integration into
the LLM within a unified vocabulary. To further enhance the fine-grained pose
perception capabilities, we facilitate UniPose with a mixture of visual
encoders, among them a pose-specific visual encoder. Benefiting from a unified
learning strategy, UniPose effectively transfers knowledge across different
pose-relevant tasks, adapts to unseen tasks, and exhibits extended
capabilities. This work serves as the first attempt at building a
general-purpose framework for pose comprehension, generation, and editing.
Extensive experiments highlight UniPose's competitive and even superior
performance across various pose-relevant tasks.Summary
AI-Generated Summary