TokenHSI: Síntesis Unificada de Interacciones Físicas entre Humanos y Escenas mediante Tokenización de Tareas
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization
March 25, 2025
Autores: Liang Pan, Zeshi Yang, Zhiyang Dou, Wenjia Wang, Buzhen Huang, Bo Dai, Taku Komura, Jingbo Wang
cs.AI
Resumen
La síntesis de interacciones humano-escena (HSI) diversas y físicamente plausibles es fundamental tanto para la animación por computadora como para la IA encarnada. A pesar de los avances alentadores, los métodos actuales se centran principalmente en desarrollar controladores separados, cada uno especializado en una tarea de interacción específica. Esto dificulta significativamente la capacidad de abordar una amplia variedad de tareas HSI desafiantes que requieren la integración de múltiples habilidades, por ejemplo, sentarse mientras se sostiene un objeto. Para abordar este problema, presentamos TokenHSI, una política única y unificada basada en transformadores, capaz de unificar múltiples habilidades y adaptarse de manera flexible. La idea clave es modelar la propiocepción del humanoide como un token compartido separado y combinarlo con tokens de tareas distintos mediante un mecanismo de enmascaramiento. Tal política unificada permite un intercambio efectivo de conocimientos entre habilidades, facilitando así el entrenamiento multitarea. Además, nuestra arquitectura de política admite entradas de longitud variable, lo que permite la adaptación flexible de habilidades aprendidas a nuevos escenarios. Al entrenar tokenizadores de tareas adicionales, no solo podemos modificar las geometrías de los objetivos de interacción, sino también coordinar múltiples habilidades para abordar tareas complejas. Los experimentos demuestran que nuestro enfoque puede mejorar significativamente la versatilidad, adaptabilidad y extensibilidad en diversas tareas HSI. Sitio web: https://liangpan99.github.io/TokenHSI/
English
Synthesizing diverse and physically plausible Human-Scene Interactions (HSI)
is pivotal for both computer animation and embodied AI. Despite encouraging
progress, current methods mainly focus on developing separate controllers, each
specialized for a specific interaction task. This significantly hinders the
ability to tackle a wide variety of challenging HSI tasks that require the
integration of multiple skills, e.g., sitting down while carrying an object. To
address this issue, we present TokenHSI, a single, unified transformer-based
policy capable of multi-skill unification and flexible adaptation. The key
insight is to model the humanoid proprioception as a separate shared token and
combine it with distinct task tokens via a masking mechanism. Such a unified
policy enables effective knowledge sharing across skills, thereby facilitating
the multi-task training. Moreover, our policy architecture supports variable
length inputs, enabling flexible adaptation of learned skills to new scenarios.
By training additional task tokenizers, we can not only modify the geometries
of interaction targets but also coordinate multiple skills to address complex
tasks. The experiments demonstrate that our approach can significantly improve
versatility, adaptability, and extensibility in various HSI tasks. Website:
https://liangpan99.github.io/TokenHSI/Summary
AI-Generated Summary