ChatPaper.aiChatPaper

Абсолютные координаты упрощают генерацию движений.

Absolute Coordinates Make Motion Generation Easy

May 26, 2025
Авторы: Zichong Meng, Zeyu Han, Xiaogang Peng, Yiming Xie, Huaizu Jiang
cs.AI

Аннотация

Современные модели генерации движения из текста опираются на кинематически-осознанное, локально-относительное представление движения, популяризированное HumanML3D, которое кодирует движение относительно таза и предыдущего кадра с встроенной избыточностью. Хотя такой подход упрощает обучение для ранних моделей генерации, он вводит критические ограничения для диффузионных моделей и затрудняет применимость к последующим задачам. В данной работе мы пересматриваем представление движения и предлагаем радикально упрощённую и давно забытую альтернативу для генерации движения из текста: абсолютные координаты суставов в глобальном пространстве. Благодаря систематическому анализу проектных решений мы показываем, что такая формулировка обеспечивает значительно более высокую точность движения, улучшенное соответствие тексту и сильную масштабируемость даже при использовании простой архитектуры Transformer и без вспомогательных кинематически-осознанных функций потерь. Более того, наша формулировка естественным образом поддерживает последующие задачи, такие как управление движением на основе текста и временное/пространственное редактирование, без дополнительной переработки под конкретные задачи и затратной генерации с использованием классификаторного управления на основе управляющих сигналов. Наконец, мы демонстрируем перспективную обобщаемость, позволяющую напрямую генерировать вершины SMPL-H меша в движении из текста, закладывая прочную основу для будущих исследований и приложений, связанных с движением.
English
State-of-the-art text-to-motion generation models rely on the kinematic-aware, local-relative motion representation popularized by HumanML3D, which encodes motion relative to the pelvis and to the previous frame with built-in redundancy. While this design simplifies training for earlier generation models, it introduces critical limitations for diffusion models and hinders applicability to downstream tasks. In this work, we revisit the motion representation and propose a radically simplified and long-abandoned alternative for text-to-motion generation: absolute joint coordinates in global space. Through systematic analysis of design choices, we show that this formulation achieves significantly higher motion fidelity, improved text alignment, and strong scalability, even with a simple Transformer backbone and no auxiliary kinematic-aware losses. Moreover, our formulation naturally supports downstream tasks such as text-driven motion control and temporal/spatial editing without additional task-specific reengineering and costly classifier guidance generation from control signals. Finally, we demonstrate promising generalization to directly generate SMPL-H mesh vertices in motion from text, laying a strong foundation for future research and motion-related applications.

Summary

AI-Generated Summary

PDF12May 28, 2025