TokenHSI: Унифицированный синтез физического взаимодействия человека и сцены через токенизацию задач
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization
March 25, 2025
Авторы: Liang Pan, Zeshi Yang, Zhiyang Dou, Wenjia Wang, Buzhen Huang, Bo Dai, Taku Komura, Jingbo Wang
cs.AI
Аннотация
Синтез разнообразных и физически правдоподобных взаимодействий человека со сценой (Human-Scene Interactions, HSI) имеет ключевое значение как для компьютерной анимации, так и для воплощённого искусственного интеллекта. Несмотря на обнадёживающие успехи, современные методы в основном сосредоточены на разработке отдельных контроллеров, каждый из которых специализируется на конкретной задаче взаимодействия. Это существенно ограничивает возможность решения широкого спектра сложных задач HSI, требующих интеграции множества навыков, например, приседания с удерживаемым объектом. Для решения этой проблемы мы представляем TokenHSI — единую политику на основе трансформеров, способную к унификации множества навыков и гибкой адаптации. Ключевая идея заключается в моделировании проприоцепции гуманоида как отдельного общего токена и его комбинировании с различными токенами задач через механизм маскирования. Такая унифицированная политика позволяет эффективно обмениваться знаниями между навыками, что способствует многозадачному обучению. Более того, архитектура нашей политики поддерживает входные данные переменной длины, обеспечивая гибкую адаптацию изученных навыков к новым сценариям. Обучая дополнительные токенизаторы задач, мы можем не только изменять геометрию целей взаимодействия, но и координировать несколько навыков для решения сложных задач. Эксперименты показывают, что наш подход значительно повышает универсальность, адаптивность и расширяемость в различных задачах HSI. Сайт: https://liangpan99.github.io/TokenHSI/
English
Synthesizing diverse and physically plausible Human-Scene Interactions (HSI)
is pivotal for both computer animation and embodied AI. Despite encouraging
progress, current methods mainly focus on developing separate controllers, each
specialized for a specific interaction task. This significantly hinders the
ability to tackle a wide variety of challenging HSI tasks that require the
integration of multiple skills, e.g., sitting down while carrying an object. To
address this issue, we present TokenHSI, a single, unified transformer-based
policy capable of multi-skill unification and flexible adaptation. The key
insight is to model the humanoid proprioception as a separate shared token and
combine it with distinct task tokens via a masking mechanism. Such a unified
policy enables effective knowledge sharing across skills, thereby facilitating
the multi-task training. Moreover, our policy architecture supports variable
length inputs, enabling flexible adaptation of learned skills to new scenarios.
By training additional task tokenizers, we can not only modify the geometries
of interaction targets but also coordinate multiple skills to address complex
tasks. The experiments demonstrate that our approach can significantly improve
versatility, adaptability, and extensibility in various HSI tasks. Website:
https://liangpan99.github.io/TokenHSI/Summary
AI-Generated Summary