UniPose: Объединенная мультимодальная платформа для понимания, генерации и редактирования поз человека.

Аннотация

Человеческая поза играет решающую роль в цифровую эпоху. В то время как недавние работы достигли впечатляющего прогресса в понимании и генерации человеческих поз, они часто поддерживают только одну модальность управляющих сигналов и работают в изоляции, что ограничивает их применение в реальных сценариях. В данной статье представлена UniPose, фреймворк, использующий Большие Языковые Модели (LLM) для понимания, генерации и редактирования человеческих поз в различных модальностях, включая изображения, текст и 3D позы SMPL. Конкретно, мы применяем токенизатор поз для преобразования 3D поз в дискретные токены поз, обеспечивая безупречную интеграцию в LLM в рамках единого словаря. Для дальнейшего улучшения возможностей восприятия поз с высокой детализацией мы обеспечиваем UniPose смесью визуальных кодировщиков, включая специализированный кодировщик поз. Благодаря унифицированной стратегии обучения UniPose эффективно передает знания между различными задачами, адаптируется к невидимым задачам и проявляет расширенные возможности. Эта работа служит первой попыткой создания универсального фреймворка для понимания, генерации и редактирования поз. Обширные эксперименты подчеркивают конкурентоспособность и даже превосходство UniPose в различных задачах, связанных с позами.

English

Human pose plays a crucial role in the digital age. While recent works have achieved impressive progress in understanding and generating human poses, they often support only a single modality of control signals and operate in isolation, limiting their application in real-world scenarios. This paper presents UniPose, a framework employing Large Language Models (LLMs) to comprehend, generate, and edit human poses across various modalities, including images, text, and 3D SMPL poses. Specifically, we apply a pose tokenizer to convert 3D poses into discrete pose tokens, enabling seamless integration into the LLM within a unified vocabulary. To further enhance the fine-grained pose perception capabilities, we facilitate UniPose with a mixture of visual encoders, among them a pose-specific visual encoder. Benefiting from a unified learning strategy, UniPose effectively transfers knowledge across different pose-relevant tasks, adapts to unseen tasks, and exhibits extended capabilities. This work serves as the first attempt at building a general-purpose framework for pose comprehension, generation, and editing. Extensive experiments highlight UniPose's competitive and even superior performance across various pose-relevant tasks.