TokenHSI:タスクトークン化による物理的人間-シーンインタラクションの統合的合成
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization
March 25, 2025
著者: Liang Pan, Zeshi Yang, Zhiyang Dou, Wenjia Wang, Buzhen Huang, Bo Dai, Taku Komura, Jingbo Wang
cs.AI
要旨
多様で物理的に妥当な人間-シーンインタラクション(HSI)の合成は、コンピュータアニメーションとエンボディードAIの両方にとって極めて重要です。近年の進展は目覚ましいものの、現在の手法は主に特定のインタラクションタスクに特化した個別のコントローラの開発に焦点を当てています。これにより、複数のスキルの統合を必要とする多様なHSIタスク(例えば、物体を持ちながら座る動作など)に対応する能力が大幅に制限されています。この問題を解決するため、我々はTokenHSIを提案します。これは、複数のスキルを統合し、柔軟に適応可能な単一のトランスフォーマーベースのポリシーです。重要な洞察は、ヒューマノイドの固有感覚を別個の共有トークンとしてモデル化し、マスキングメカニズムを通じて異なるタスクトークンと組み合わせることです。この統合されたポリシーにより、スキル間での効果的な知識共有が可能となり、マルチタスク学習が促進されます。さらに、我々のポリシーアーキテクチャは可変長の入力をサポートし、学習済みのスキルを新しいシナリオに柔軟に適応させることができます。追加のタスクトークナイザを訓練することで、インタラクションターゲットの幾何学を変更するだけでなく、複数のスキルを調整して複雑なタスクに対応することも可能です。実験結果は、我々のアプローチが様々なHSIタスクにおいて汎用性、適応性、拡張性を大幅に向上させることを示しています。ウェブサイト: https://liangpan99.github.io/TokenHSI/
English
Synthesizing diverse and physically plausible Human-Scene Interactions (HSI)
is pivotal for both computer animation and embodied AI. Despite encouraging
progress, current methods mainly focus on developing separate controllers, each
specialized for a specific interaction task. This significantly hinders the
ability to tackle a wide variety of challenging HSI tasks that require the
integration of multiple skills, e.g., sitting down while carrying an object. To
address this issue, we present TokenHSI, a single, unified transformer-based
policy capable of multi-skill unification and flexible adaptation. The key
insight is to model the humanoid proprioception as a separate shared token and
combine it with distinct task tokens via a masking mechanism. Such a unified
policy enables effective knowledge sharing across skills, thereby facilitating
the multi-task training. Moreover, our policy architecture supports variable
length inputs, enabling flexible adaptation of learned skills to new scenarios.
By training additional task tokenizers, we can not only modify the geometries
of interaction targets but also coordinate multiple skills to address complex
tasks. The experiments demonstrate that our approach can significantly improve
versatility, adaptability, and extensibility in various HSI tasks. Website:
https://liangpan99.github.io/TokenHSI/