TokenHSI: Унифицированный синтез физического взаимодействия человека и сцены через токенизацию задач

Аннотация

Синтез разнообразных и физически правдоподобных взаимодействий человека со сценой (Human-Scene Interactions, HSI) имеет ключевое значение как для компьютерной анимации, так и для воплощённого искусственного интеллекта. Несмотря на обнадёживающие успехи, современные методы в основном сосредоточены на разработке отдельных контроллеров, каждый из которых специализируется на конкретной задаче взаимодействия. Это существенно ограничивает возможность решения широкого спектра сложных задач HSI, требующих интеграции множества навыков, например, приседания с удерживаемым объектом. Для решения этой проблемы мы представляем TokenHSI — единую политику на основе трансформеров, способную к унификации множества навыков и гибкой адаптации. Ключевая идея заключается в моделировании проприоцепции гуманоида как отдельного общего токена и его комбинировании с различными токенами задач через механизм маскирования. Такая унифицированная политика позволяет эффективно обмениваться знаниями между навыками, что способствует многозадачному обучению. Более того, архитектура нашей политики поддерживает входные данные переменной длины, обеспечивая гибкую адаптацию изученных навыков к новым сценариям. Обучая дополнительные токенизаторы задач, мы можем не только изменять геометрию целей взаимодействия, но и координировать несколько навыков для решения сложных задач. Эксперименты показывают, что наш подход значительно повышает универсальность, адаптивность и расширяемость в различных задачах HSI. Сайт: https://liangpan99.github.io/TokenHSI/

English

Synthesizing diverse and physically plausible Human-Scene Interactions (HSI) is pivotal for both computer animation and embodied AI. Despite encouraging progress, current methods mainly focus on developing separate controllers, each specialized for a specific interaction task. This significantly hinders the ability to tackle a wide variety of challenging HSI tasks that require the integration of multiple skills, e.g., sitting down while carrying an object. To address this issue, we present TokenHSI, a single, unified transformer-based policy capable of multi-skill unification and flexible adaptation. The key insight is to model the humanoid proprioception as a separate shared token and combine it with distinct task tokens via a masking mechanism. Such a unified policy enables effective knowledge sharing across skills, thereby facilitating the multi-task training. Moreover, our policy architecture supports variable length inputs, enabling flexible adaptation of learned skills to new scenarios. By training additional task tokenizers, we can not only modify the geometries of interaction targets but also coordinate multiple skills to address complex tasks. The experiments demonstrate that our approach can significantly improve versatility, adaptability, and extensibility in various HSI tasks. Website: https://liangpan99.github.io/TokenHSI/

TokenHSI: Унифицированный синтез физического взаимодействия человека и сцены через токенизацию задач

TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization

Аннотация

Support