UniPose: 人物ポーズの理解、生成、編集のための統合されたマルチモーダルフレームワーク
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
November 25, 2024
著者: Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
cs.AI
要旨
人間のポーズはデジタル時代において重要な役割を果たしています。最近の研究は人間のポーズの理解と生成において印象的な進歩を達成してきましたが、しばしば単一の制御信号のみをサポートし、孤立して動作するため、実世界のシナリオでの適用が制限されています。本論文では、画像、テキスト、および3D SMPLポーズなど、さまざまなモダリティにわたる人間のポーズを理解、生成、編集するために、大規模言語モデル(LLMs)を用いるUniPoseフレームワークを提案します。具体的には、3Dポーズを離散的なポーズトークンに変換するためのポーズトークナイザを適用し、統一された語彙内でLLMにシームレスに統合することが可能となります。さらに、UniPoseを細かいポーズ知覚能力を向上させるために、ポーズ固有のビジュアルエンコーダを含む複数のビジュアルエンコーダを活用しています。統一された学習戦略から利益を得ることで、UniPoseは異なるポーズ関連タスク間で知識を効果的に転送し、見慣れないタスクに適応し、拡張された能力を示します。この研究は、ポーズの理解、生成、編集のための汎用フレームワークを構築する初の試みとなります。幅広い実験により、UniPoseはさまざまなポーズ関連タスクで競争力のある、さらには優れたパフォーマンスを発揮することが示されています。
English
Human pose plays a crucial role in the digital age. While recent works have
achieved impressive progress in understanding and generating human poses, they
often support only a single modality of control signals and operate in
isolation, limiting their application in real-world scenarios. This paper
presents UniPose, a framework employing Large Language Models (LLMs) to
comprehend, generate, and edit human poses across various modalities, including
images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to
convert 3D poses into discrete pose tokens, enabling seamless integration into
the LLM within a unified vocabulary. To further enhance the fine-grained pose
perception capabilities, we facilitate UniPose with a mixture of visual
encoders, among them a pose-specific visual encoder. Benefiting from a unified
learning strategy, UniPose effectively transfers knowledge across different
pose-relevant tasks, adapts to unseen tasks, and exhibits extended
capabilities. This work serves as the first attempt at building a
general-purpose framework for pose comprehension, generation, and editing.
Extensive experiments highlight UniPose's competitive and even superior
performance across various pose-relevant tasks.Summary
AI-Generated Summary