TokenHSI: Síntese Unificada de Interações Físicas Humano-Cena através de Tokenização de Tarefas
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization
March 25, 2025
Autores: Liang Pan, Zeshi Yang, Zhiyang Dou, Wenjia Wang, Buzhen Huang, Bo Dai, Taku Komura, Jingbo Wang
cs.AI
Resumo
A síntese de Interações Humano-Cenário (HSI) diversas e fisicamente plausíveis é crucial tanto para a animação computacional quanto para a IA incorporada. Apesar de progressos encorajadores, os métodos atuais concentram-se principalmente no desenvolvimento de controladores separados, cada um especializado em uma tarefa de interação específica. Isso dificulta significativamente a capacidade de abordar uma ampla variedade de tarefas desafiadoras de HSI que exigem a integração de múltiplas habilidades, como, por exemplo, sentar-se enquanto carrega um objeto. Para resolver esse problema, apresentamos o TokenHSI, uma política única e unificada baseada em transformadores, capaz de unificar múltiplas habilidades e se adaptar de forma flexível. A ideia central é modelar a propriocepção do humanoide como um token compartilhado separado e combiná-lo com tokens de tarefas distintas por meio de um mecanismo de mascaramento. Essa política unificada permite o compartilhamento eficaz de conhecimento entre habilidades, facilitando assim o treinamento multitarefa. Além disso, a arquitetura da nossa política suporta entradas de comprimento variável, permitindo a adaptação flexível das habilidades aprendidas a novos cenários. Ao treinar tokenizadores de tarefas adicionais, podemos não apenas modificar as geometrias dos alvos de interação, mas também coordenar múltiplas habilidades para abordar tarefas complexas. Os experimentos demonstram que nossa abordagem pode melhorar significativamente a versatilidade, adaptabilidade e extensibilidade em várias tarefas de HSI. Website: https://liangpan99.github.io/TokenHSI/
English
Synthesizing diverse and physically plausible Human-Scene Interactions (HSI)
is pivotal for both computer animation and embodied AI. Despite encouraging
progress, current methods mainly focus on developing separate controllers, each
specialized for a specific interaction task. This significantly hinders the
ability to tackle a wide variety of challenging HSI tasks that require the
integration of multiple skills, e.g., sitting down while carrying an object. To
address this issue, we present TokenHSI, a single, unified transformer-based
policy capable of multi-skill unification and flexible adaptation. The key
insight is to model the humanoid proprioception as a separate shared token and
combine it with distinct task tokens via a masking mechanism. Such a unified
policy enables effective knowledge sharing across skills, thereby facilitating
the multi-task training. Moreover, our policy architecture supports variable
length inputs, enabling flexible adaptation of learned skills to new scenarios.
By training additional task tokenizers, we can not only modify the geometries
of interaction targets but also coordinate multiple skills to address complex
tasks. The experiments demonstrate that our approach can significantly improve
versatility, adaptability, and extensibility in various HSI tasks. Website:
https://liangpan99.github.io/TokenHSI/Summary
AI-Generated Summary