UniPose: Ein vereinheitlichtes multimodales Framework für das Verständnis, die Generierung und Bearbeitung menschlicher Körperhaltungen.

Zusammenfassung

Die menschliche Pose spielt eine entscheidende Rolle im digitalen Zeitalter. Während in jüngsten Arbeiten beeindruckende Fortschritte bei der Erfassung und Generierung menschlicher Posen erzielt wurden, unterstützen sie oft nur eine einzige Modalität von Steuersignalen und arbeiten isoliert, was ihre Anwendung in realen Szenarien einschränkt. Dieser Artikel stellt UniPose vor, ein Framework, das Large Language Models (LLMs) einsetzt, um menschliche Posen über verschiedene Modalitäten hinweg zu erfassen, zu generieren und zu bearbeiten, einschließlich Bilder, Text und 3D SMPL-Posen. Konkret wenden wir einen Pose-Tokenizer an, um 3D-Posen in diskrete Pose-Token umzuwandeln, was eine nahtlose Integration in das LLM innerhalb eines einheitlichen Vokabulars ermöglicht. Um die feinkörnigen Pose-Wahrnehmungsfähigkeiten weiter zu verbessern, erleichtern wir UniPose mit einer Mischung von visuellen Encodern, darunter ein pose-spezifischer visueller Encoder. Durch eine vereinheitlichte Lernstrategie kann UniPose Wissen effektiv über verschiedene pose-relevante Aufgaben übertragen, sich an unbekannte Aufgaben anpassen und erweiterte Fähigkeiten zeigen. Diese Arbeit stellt den ersten Versuch dar, ein universelles Framework für die Erfassung, Generierung und Bearbeitung von Posen aufzubauen. Umfangreiche Experimente heben die wettbewerbsfähige und sogar überlegene Leistung von UniPose bei verschiedenen pose-relevanten Aufgaben hervor.

English

Human pose plays a crucial role in the digital age. While recent works have achieved impressive progress in understanding and generating human poses, they often support only a single modality of control signals and operate in isolation, limiting their application in real-world scenarios. This paper presents UniPose, a framework employing Large Language Models (LLMs) to comprehend, generate, and edit human poses across various modalities, including images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to convert 3D poses into discrete pose tokens, enabling seamless integration into the LLM within a unified vocabulary. To further enhance the fine-grained pose perception capabilities, we facilitate UniPose with a mixture of visual encoders, among them a pose-specific visual encoder. Benefiting from a unified learning strategy, UniPose effectively transfers knowledge across different pose-relevant tasks, adapts to unseen tasks, and exhibits extended capabilities. This work serves as the first attempt at building a general-purpose framework for pose comprehension, generation, and editing. Extensive experiments highlight UniPose's competitive and even superior performance across various pose-relevant tasks.