UniPose: Ein vereinheitlichtes multimodales Framework für das Verständnis, die Generierung und Bearbeitung menschlicher Körperhaltungen.
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
November 25, 2024
Autoren: Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
cs.AI
Zusammenfassung
Die menschliche Pose spielt eine entscheidende Rolle im digitalen Zeitalter. Während in jüngsten Arbeiten beeindruckende Fortschritte bei der Erfassung und Generierung menschlicher Posen erzielt wurden, unterstützen sie oft nur eine einzige Modalität von Steuersignalen und arbeiten isoliert, was ihre Anwendung in realen Szenarien einschränkt. Dieser Artikel stellt UniPose vor, ein Framework, das Large Language Models (LLMs) einsetzt, um menschliche Posen über verschiedene Modalitäten hinweg zu erfassen, zu generieren und zu bearbeiten, einschließlich Bilder, Text und 3D SMPL-Posen. Konkret wenden wir einen Pose-Tokenizer an, um 3D-Posen in diskrete Pose-Token umzuwandeln, was eine nahtlose Integration in das LLM innerhalb eines einheitlichen Vokabulars ermöglicht. Um die feinkörnigen Pose-Wahrnehmungsfähigkeiten weiter zu verbessern, erleichtern wir UniPose mit einer Mischung von visuellen Encodern, darunter ein pose-spezifischer visueller Encoder. Durch eine vereinheitlichte Lernstrategie kann UniPose Wissen effektiv über verschiedene pose-relevante Aufgaben übertragen, sich an unbekannte Aufgaben anpassen und erweiterte Fähigkeiten zeigen. Diese Arbeit stellt den ersten Versuch dar, ein universelles Framework für die Erfassung, Generierung und Bearbeitung von Posen aufzubauen. Umfangreiche Experimente heben die wettbewerbsfähige und sogar überlegene Leistung von UniPose bei verschiedenen pose-relevanten Aufgaben hervor.
English
Human pose plays a crucial role in the digital age. While recent works have
achieved impressive progress in understanding and generating human poses, they
often support only a single modality of control signals and operate in
isolation, limiting their application in real-world scenarios. This paper
presents UniPose, a framework employing Large Language Models (LLMs) to
comprehend, generate, and edit human poses across various modalities, including
images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to
convert 3D poses into discrete pose tokens, enabling seamless integration into
the LLM within a unified vocabulary. To further enhance the fine-grained pose
perception capabilities, we facilitate UniPose with a mixture of visual
encoders, among them a pose-specific visual encoder. Benefiting from a unified
learning strategy, UniPose effectively transfers knowledge across different
pose-relevant tasks, adapts to unseen tasks, and exhibits extended
capabilities. This work serves as the first attempt at building a
general-purpose framework for pose comprehension, generation, and editing.
Extensive experiments highlight UniPose's competitive and even superior
performance across various pose-relevant tasks.Summary
AI-Generated Summary