UniPose: Объединенная мультимодальная платформа для понимания, генерации и редактирования поз человека.
UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing
November 25, 2024
Авторы: Yiheng Li, Ruibing Hou, Hong Chang, Shiguang Shan, Xilin Chen
cs.AI
Аннотация
Человеческая поза играет решающую роль в цифровую эпоху. В то время как недавние работы достигли впечатляющего прогресса в понимании и генерации человеческих поз, они часто поддерживают только одну модальность управляющих сигналов и работают в изоляции, что ограничивает их применение в реальных сценариях. В данной статье представлена UniPose, фреймворк, использующий Большие Языковые Модели (LLM) для понимания, генерации и редактирования человеческих поз в различных модальностях, включая изображения, текст и 3D позы SMPL. Конкретно, мы применяем токенизатор поз для преобразования 3D поз в дискретные токены поз, обеспечивая безупречную интеграцию в LLM в рамках единого словаря. Для дальнейшего улучшения возможностей восприятия поз с высокой детализацией мы обеспечиваем UniPose смесью визуальных кодировщиков, включая специализированный кодировщик поз. Благодаря унифицированной стратегии обучения UniPose эффективно передает знания между различными задачами, адаптируется к невидимым задачам и проявляет расширенные возможности. Эта работа служит первой попыткой создания универсального фреймворка для понимания, генерации и редактирования поз. Обширные эксперименты подчеркивают конкурентоспособность и даже превосходство UniPose в различных задачах, связанных с позами.
English
Human pose plays a crucial role in the digital age. While recent works have
achieved impressive progress in understanding and generating human poses, they
often support only a single modality of control signals and operate in
isolation, limiting their application in real-world scenarios. This paper
presents UniPose, a framework employing Large Language Models (LLMs) to
comprehend, generate, and edit human poses across various modalities, including
images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to
convert 3D poses into discrete pose tokens, enabling seamless integration into
the LLM within a unified vocabulary. To further enhance the fine-grained pose
perception capabilities, we facilitate UniPose with a mixture of visual
encoders, among them a pose-specific visual encoder. Benefiting from a unified
learning strategy, UniPose effectively transfers knowledge across different
pose-relevant tasks, adapts to unseen tasks, and exhibits extended
capabilities. This work serves as the first attempt at building a
general-purpose framework for pose comprehension, generation, and editing.
Extensive experiments highlight UniPose's competitive and even superior
performance across various pose-relevant tasks.Summary
AI-Generated Summary