TeamHOI: Обучение унифицированной политике для кооперативных взаимодействий человек-объект с любым размером команды

Аннотация

Физически обоснованное управление гуманоидами достигло значительного прогресса в создании реалистичного и высокоэффективного поведения одиночных агентов, однако расширение этих возможностей на кооперативное взаимодействие "человек-объект" (Human-Object Interaction, HOI) остается сложной задачей. Мы представляем TeamHOI — фреймворк, который позволяет единой децентрализованной политике управлять кооперативными HOI для любого числа взаимодействующих агентов. Каждый агент функционирует на основе локальных наблюдений, одновременно координируясь с другими членами команды через трансформерную политическую сеть с использованием токенов агентов, что обеспечивает масштабируемую координацию при переменном размере команды. Для обеспечения реалистичности движений в условиях дефицита данных по кооперативному HOI мы дополнительно вводим стратегию маскированного состязательного априори движений (Adversarial Motion Prior, AMP), которая использует эталонные движения одиночного человека, маскируя взаимодействующие с объектом части тела во время обучения. Маскированные области затем направляются с помощью целевых вознаграждений для генерации разнообразного и физически правдоподобного кооперативного поведения. Мы оцениваем TeamHOI на сложной задаче кооперативного переноса объектов, включающей от двух до восьми гуманоидных агентов и объекты различной геометрии. Наконец, для обеспечения устойчивого переноса мы разрабатываем универсальное вознаграждение за формирование строя, не зависящее от размера команды и формы объекта. TeamHOI демонстрирует высокие показатели успешности и слаженное кооперативное поведение в разнообразных конфигурациях с использованием единой политики.

English

Physics-based humanoid control has achieved remarkable progress in enabling realistic and high-performing single-agent behaviors, yet extending these capabilities to cooperative human-object interaction (HOI) remains challenging. We present TeamHOI, a framework that enables a single decentralized policy to handle cooperative HOIs across any number of cooperating agents. Each agent operates using local observations while attending to other teammates through a Transformer-based policy network with teammate tokens, allowing scalable coordination across variable team sizes. To enforce motion realism while addressing the scarcity of cooperative HOI data, we further introduce a masked Adversarial Motion Prior (AMP) strategy that uses single-human reference motions while masking object-interacting body parts during training. The masked regions are then guided through task rewards to produce diverse and physically plausible cooperative behaviors. We evaluate TeamHOI on a challenging cooperative carrying task involving two to eight humanoid agents and varied object geometries. Finally, to promote stable carrying, we design a team-size- and shape-agnostic formation reward. TeamHOI achieves high success rates and demonstrates coherent cooperation across diverse configurations with a single policy.

TeamHOI: Обучение унифицированной политике для кооперативных взаимодействий человек-объект с любым размером команды

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

Аннотация

Support