TokenHSI : Synthèse unifiée des interactions physiques humain-scène par tokenisation des tâches
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization
March 25, 2025
Auteurs: Liang Pan, Zeshi Yang, Zhiyang Dou, Wenjia Wang, Buzhen Huang, Bo Dai, Taku Komura, Jingbo Wang
cs.AI
Résumé
La synthèse d'interactions humain-scène (HSI) diversifiées et physiquement plausibles est cruciale à la fois pour l'animation par ordinateur et l'intelligence artificielle incarnée. Malgré des progrès encourageants, les méthodes actuelles se concentrent principalement sur le développement de contrôleurs séparés, chacun spécialisé pour une tâche d'interaction spécifique. Cela entrave considérablement la capacité à aborder une grande variété de tâches HSI complexes qui nécessitent l'intégration de multiples compétences, par exemple s'asseoir tout en portant un objet. Pour résoudre ce problème, nous présentons TokenHSI, une politique unique et unifiée basée sur un transformateur, capable d'unifier plusieurs compétences et de s'adapter de manière flexible. L'idée clé est de modéliser la proprioception de l'humanoïde comme un jeton partagé distinct et de la combiner avec des jetons de tâches spécifiques via un mécanisme de masquage. Une telle politique unifiée permet un partage efficace des connaissances entre les compétences, facilitant ainsi l'entraînement multi-tâches. De plus, l'architecture de notre politique prend en charge des entrées de longueur variable, permettant une adaptation flexible des compétences apprises à de nouveaux scénarios. En entraînant des tokenizers de tâches supplémentaires, nous pouvons non seulement modifier les géométries des cibles d'interaction, mais aussi coordonner plusieurs compétences pour résoudre des tâches complexes. Les expériences démontrent que notre approche peut considérablement améliorer la polyvalence, l'adaptabilité et l'extensibilité dans diverses tâches HSI. Site web : https://liangpan99.github.io/TokenHSI/
English
Synthesizing diverse and physically plausible Human-Scene Interactions (HSI)
is pivotal for both computer animation and embodied AI. Despite encouraging
progress, current methods mainly focus on developing separate controllers, each
specialized for a specific interaction task. This significantly hinders the
ability to tackle a wide variety of challenging HSI tasks that require the
integration of multiple skills, e.g., sitting down while carrying an object. To
address this issue, we present TokenHSI, a single, unified transformer-based
policy capable of multi-skill unification and flexible adaptation. The key
insight is to model the humanoid proprioception as a separate shared token and
combine it with distinct task tokens via a masking mechanism. Such a unified
policy enables effective knowledge sharing across skills, thereby facilitating
the multi-task training. Moreover, our policy architecture supports variable
length inputs, enabling flexible adaptation of learned skills to new scenarios.
By training additional task tokenizers, we can not only modify the geometries
of interaction targets but also coordinate multiple skills to address complex
tasks. The experiments demonstrate that our approach can significantly improve
versatility, adaptability, and extensibility in various HSI tasks. Website:
https://liangpan99.github.io/TokenHSI/Summary
AI-Generated Summary