TokenHSI: Geïntegreerde Synthese van Fysieke Mens-Scène Interacties via Taaktokenisatie
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization
March 25, 2025
Auteurs: Liang Pan, Zeshi Yang, Zhiyang Dou, Wenjia Wang, Buzhen Huang, Bo Dai, Taku Komura, Jingbo Wang
cs.AI
Samenvatting
Het synthetiseren van diverse en fysiek plausibele mens-scène-interacties (HSI)
is cruciaal voor zowel computeranimatie als embodied AI. Ondanks bemoedigende
vooruitgang richten huidige methoden zich voornamelijk op het ontwikkelen van
afzonderlijke controllers, elk gespecialiseerd in een specifieke interactietaak.
Dit belemmert aanzienlijk de mogelijkheid om een breed scala aan uitdagende HSI-taken
aan te pakken die de integratie van meerdere vaardigheden vereisen, zoals gaan zitten
terwijl een object wordt gedragen. Om dit probleem aan te pakken, presenteren we
TokenHSI, een enkele, uniforme transformer-gebaseerde policy die in staat is tot
multi-vaardigheidsunificatie en flexibele aanpassing. Het belangrijkste inzicht is
om de humanoïde proprioceptie te modelleren als een apart gedeeld token en dit te
combineren met verschillende taaktokens via een masking-mechanisme. Zo'n uniforme
policy maakt effectieve kennisuitwisseling tussen vaardigheden mogelijk, waardoor
multi-task training wordt gefaciliteerd. Bovendien ondersteunt onze policy-architectuur
inputs met variabele lengte, waardoor flexibele aanpassing van geleerde vaardigheden
aan nieuwe scenario's mogelijk wordt. Door aanvullende taaktokenizers te trainen,
kunnen we niet alleen de geometrieën van interactiedoelen aanpassen, maar ook
meerdere vaardigheden coördineren om complexe taken aan te pakken. De experimenten
tonen aan dat onze aanpak de veelzijdigheid, aanpasbaarheid en uitbreidbaarheid
in verschillende HSI-taken aanzienlijk kan verbeteren. Website:
https://liangpan99.github.io/TokenHSI/
English
Synthesizing diverse and physically plausible Human-Scene Interactions (HSI)
is pivotal for both computer animation and embodied AI. Despite encouraging
progress, current methods mainly focus on developing separate controllers, each
specialized for a specific interaction task. This significantly hinders the
ability to tackle a wide variety of challenging HSI tasks that require the
integration of multiple skills, e.g., sitting down while carrying an object. To
address this issue, we present TokenHSI, a single, unified transformer-based
policy capable of multi-skill unification and flexible adaptation. The key
insight is to model the humanoid proprioception as a separate shared token and
combine it with distinct task tokens via a masking mechanism. Such a unified
policy enables effective knowledge sharing across skills, thereby facilitating
the multi-task training. Moreover, our policy architecture supports variable
length inputs, enabling flexible adaptation of learned skills to new scenarios.
By training additional task tokenizers, we can not only modify the geometries
of interaction targets but also coordinate multiple skills to address complex
tasks. The experiments demonstrate that our approach can significantly improve
versatility, adaptability, and extensibility in various HSI tasks. Website:
https://liangpan99.github.io/TokenHSI/Summary
AI-Generated Summary