Разобучение движений человека
Human Motion Unlearning
March 24, 2025
Авторы: Edoardo De Matteis, Matteo Migliarini, Alessio Sampieri, Indro Spinelli, Fabio Galasso
cs.AI
Аннотация
Мы представляем задачу "забывания" человеческих движений с целью предотвращения синтеза токсичных анимаций при сохранении общей производительности генерации движений по тексту. Забывание токсичных движений является сложной задачей, так как они могут быть сгенерированы как из явных текстовых запросов, так и из неявных токсичных комбинаций безопасных движений (например, "удар" — это "замах и движение ногой"). Мы предлагаем первый бенчмарк для забывания движений, отфильтровывая токсичные движения из крупных и современных наборов данных для генерации движений по тексту HumanML3D и Motion-X. Мы предлагаем базовые подходы, адаптируя передовые методы забывания изображений для обработки пространственно-временных сигналов. Наконец, мы представляем новую модель забывания движений, основанную на замене латентных кодов, которую мы называем LCR. LCR не требует обучения и подходит для дискретных латентных пространств современных диффузионных моделей генерации движений по тексту. LCR проста и стабильно превосходит базовые подходы как качественно, так и количественно. Страница проекта: https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}.
English
We introduce the task of human motion unlearning to prevent the synthesis of
toxic animations while preserving the general text-to-motion generative
performance. Unlearning toxic motions is challenging as those can be generated
from explicit text prompts and from implicit toxic combinations of safe motions
(e.g., ``kicking" is ``loading and swinging a leg"). We propose the first
motion unlearning benchmark by filtering toxic motions from the large and
recent text-to-motion datasets of HumanML3D and Motion-X. We propose baselines,
by adapting state-of-the-art image unlearning techniques to process
spatio-temporal signals. Finally, we propose a novel motion unlearning model
based on Latent Code Replacement, which we dub LCR. LCR is training-free and
suitable to the discrete latent spaces of state-of-the-art text-to-motion
diffusion models. LCR is simple and consistently outperforms baselines
qualitatively and quantitatively. Project page:
https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}.Summary
AI-Generated Summary