Désapprentissage du Mouvement Humain

papers.abstract

Nous introduisons la tâche de désapprentissage du mouvement humain afin d'empêcher la synthèse d'animations toxiques tout en préservant les performances générales de génération texte-à-mouvement. Le désapprentissage des mouvements toxiques est un défi, car ceux-ci peuvent être générés à partir de prompts textuels explicites ou de combinaisons implicites de mouvements sûrs (par exemple, « donner un coup de pied » est « charger et balancer une jambe »). Nous proposons le premier benchmark de désapprentissage de mouvement en filtrant les mouvements toxiques des grands et récents ensembles de données texte-à-mouvement HumanML3D et Motion-X. Nous proposons des méthodes de référence en adaptant des techniques de désapprentissage d'images de pointe pour traiter les signaux spatio-temporels. Enfin, nous proposons un nouveau modèle de désapprentissage de mouvement basé sur le Remplacement de Code Latent (RCL), que nous surnommons LCR. LCR ne nécessite pas d'entraînement et est adapté aux espaces latents discrets des modèles de diffusion texte-à-mouvement de pointe. LCR est simple et surpasse systématiquement les méthodes de référence qualitativement et quantitativement. Page du projet : https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}.

English

We introduce the task of human motion unlearning to prevent the synthesis of toxic animations while preserving the general text-to-motion generative performance. Unlearning toxic motions is challenging as those can be generated from explicit text prompts and from implicit toxic combinations of safe motions (e.g., ``kicking" is ``loading and swinging a leg"). We propose the first motion unlearning benchmark by filtering toxic motions from the large and recent text-to-motion datasets of HumanML3D and Motion-X. We propose baselines, by adapting state-of-the-art image unlearning techniques to process spatio-temporal signals. Finally, we propose a novel motion unlearning model based on Latent Code Replacement, which we dub LCR. LCR is training-free and suitable to the discrete latent spaces of state-of-the-art text-to-motion diffusion models. LCR is simple and consistently outperforms baselines qualitatively and quantitatively. Project page: https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}.

Désapprentissage du Mouvement Humain

Human Motion Unlearning

papers.abstract

Support