TokenHSI: Vereinheitlichte Synthese physischer Mensch-Szenen-Interaktionen durch Aufgaben-Tokenisierung
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization
March 25, 2025
Autoren: Liang Pan, Zeshi Yang, Zhiyang Dou, Wenjia Wang, Buzhen Huang, Bo Dai, Taku Komura, Jingbo Wang
cs.AI
Zusammenfassung
Die Synthese vielfältiger und physikalisch plausibler Mensch-Umgebungs-Interaktionen (Human-Scene Interactions, HSI) ist sowohl für die Computeranimation als auch für verkörperte KI von zentraler Bedeutung. Trotz ermutigender Fortschritte konzentrieren sich aktuelle Methoden hauptsächlich auf die Entwicklung separater Controller, die jeweils auf eine spezifische Interaktionsaufgabe spezialisiert sind. Dies behindert erheblich die Fähigkeit, eine Vielzahl anspruchsvoller HSI-Aufgaben zu bewältigen, die die Integration mehrerer Fähigkeiten erfordern, z. B. das Hinsetzen während des Tragens eines Objekts. Um dieses Problem zu lösen, präsentieren wir TokenHSI, eine einzige, vereinheitlichte Transformer-basierte Policy, die Multi-Skill-Vereinheitlichung und flexible Anpassung ermöglicht. Der Schlüsselansatz besteht darin, die propriozeptive Wahrnehmung des Humanoiden als separaten gemeinsamen Token zu modellieren und diesen über einen Maskierungsmechanismus mit verschiedenen Aufgaben-Tokens zu kombinieren. Eine solche vereinheitlichte Policy ermöglicht eine effektive Wissensweitergabe über Fähigkeiten hinweg und erleichtert so das Multi-Task-Training. Darüber hinaus unterstützt unsere Policy-Architektur variable Längeneingaben, was eine flexible Anpassung erlernter Fähigkeiten an neue Szenarien ermöglicht. Durch das Training zusätzlicher Aufgaben-Tokenizer können wir nicht nur die Geometrien der Interaktionsziele anpassen, sondern auch mehrere Fähigkeiten koordinieren, um komplexe Aufgaben zu bewältigen. Die Experimente zeigen, dass unser Ansatz die Vielseitigkeit, Anpassungsfähigkeit und Erweiterbarkeit in verschiedenen HSI-Aufgaben erheblich verbessern kann. Website: https://liangpan99.github.io/TokenHSI/
English
Synthesizing diverse and physically plausible Human-Scene Interactions (HSI)
is pivotal for both computer animation and embodied AI. Despite encouraging
progress, current methods mainly focus on developing separate controllers, each
specialized for a specific interaction task. This significantly hinders the
ability to tackle a wide variety of challenging HSI tasks that require the
integration of multiple skills, e.g., sitting down while carrying an object. To
address this issue, we present TokenHSI, a single, unified transformer-based
policy capable of multi-skill unification and flexible adaptation. The key
insight is to model the humanoid proprioception as a separate shared token and
combine it with distinct task tokens via a masking mechanism. Such a unified
policy enables effective knowledge sharing across skills, thereby facilitating
the multi-task training. Moreover, our policy architecture supports variable
length inputs, enabling flexible adaptation of learned skills to new scenarios.
By training additional task tokenizers, we can not only modify the geometries
of interaction targets but also coordinate multiple skills to address complex
tasks. The experiments demonstrate that our approach can significantly improve
versatility, adaptability, and extensibility in various HSI tasks. Website:
https://liangpan99.github.io/TokenHSI/Summary
AI-Generated Summary