TeamHOI : Apprentissage d'une politique unifiée pour les interactions coopératives humain-objet avec toute taille d'équipe

Résumé

Le contrôle de humanoïdes basé sur la physique a réalisé des progrès remarquables dans la création de comportements réalistes et performants pour un agent unique, mais l'extension de ces capacités aux interactions coopératives humain-objet (HOI) reste un défi. Nous présentons TeamHOI, un cadre qui permet à une politique décentralisée unique de gérer les HOI coopératives avec un nombre quelconque d'agents coopérants. Chaque agent fonctionne à l'aide d'observations locales tout en prêtant attention aux autres coéquipiers via un réseau de politique basé sur un Transformeur avec des jetons de coéquipiers, permettant une coordination évolutive pour des tailles d'équipe variables. Pour garantir le réalisme du mouvement tout en palliant la rareté des données de HOI coopératives, nous introduisons en outre une stratégie masquée de Priorité Motrice Adversariale (AMP) qui utilise des mouvements de référence d'un humain unique tout en masquant les parties du corps interagissant avec l'objet pendant l'entraînement. Les régions masquées sont ensuite guidées par des récompenses de tâche pour produire des comportements coopératifs diversifiés et physiquement plausibles. Nous évaluons TeamHOI sur une tâche coopérative exigeante de portage impliquant de deux à huit agents humanoïdes et des géométries d'objets variées. Enfin, pour favoriser un portage stable, nous concevons une récompense de formation agnostique à la taille de l'équipe et à la forme. TeamHOI atteint des taux de réussite élevés et démontre une coopération cohérente dans diverses configurations avec une seule politique.

English

Physics-based humanoid control has achieved remarkable progress in enabling realistic and high-performing single-agent behaviors, yet extending these capabilities to cooperative human-object interaction (HOI) remains challenging. We present TeamHOI, a framework that enables a single decentralized policy to handle cooperative HOIs across any number of cooperating agents. Each agent operates using local observations while attending to other teammates through a Transformer-based policy network with teammate tokens, allowing scalable coordination across variable team sizes. To enforce motion realism while addressing the scarcity of cooperative HOI data, we further introduce a masked Adversarial Motion Prior (AMP) strategy that uses single-human reference motions while masking object-interacting body parts during training. The masked regions are then guided through task rewards to produce diverse and physically plausible cooperative behaviors. We evaluate TeamHOI on a challenging cooperative carrying task involving two to eight humanoid agents and varied object geometries. Finally, to promote stable carrying, we design a team-size- and shape-agnostic formation reward. TeamHOI achieves high success rates and demonstrates coherent cooperation across diverse configurations with a single policy.

TeamHOI : Apprentissage d'une politique unifiée pour les interactions coopératives humain-objet avec toute taille d'équipe

TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size

Résumé

Support