TeamHOI: Aprendendo uma Política Unificada para Interações Cooperativas Humano-Objeto com Qualquer Tamanho de Equipe

Resumo

O controle de humanoides baseado em física tem alcançado progressos notáveis na habilitação de comportamentos realistas e de alto desempenho para um único agente. No entanto, estender essas capacidades para interações cooperativas humano-objeto (HOI) permanece um desafio. Apresentamos o TeamHOI, uma estrutura que permite a uma única política descentralizada lidar com HOIs cooperativas envolvendo qualquer número de agentes cooperantes. Cada agente opera usando observações locais, enquanto presta atenção aos outros membros da equipe por meio de uma rede de política baseada em Transformer com *tokens* de companheiros, permitindo uma coordenação escalável em tamanhos variáveis de equipe. Para impor realismo de movimento enquanto aborda a escassez de dados de HOI cooperativos, introduzimos ainda uma estratégia mascarada de Prioridade de Movimento Adversarial (AMP) que utiliza movimentos de referência de um único humano, mascarando as partes do corpo que interagem com o objeto durante o treinamento. As regiões mascaradas são então guiadas por recompensas de tarefa para produzir comportamentos cooperativos diversos e fisicamente plausíveis. Avaliamos o TeamHOI em uma tarefa desafiadora de transporte cooperativo envolvendo de dois a oito agentes humanoides e geometrias de objeto variadas. Por fim, para promover um transporte estável, projetamos uma recompensa de formação agnóstica ao tamanho da equipe e ao formato. O TeamHOI alcança altas taxas de sucesso e demonstra cooperação coerente em diversas configurações com uma única política.

English

Physics-based humanoid control has achieved remarkable progress in enabling realistic and high-performing single-agent behaviors, yet extending these capabilities to cooperative human-object interaction (HOI) remains challenging. We present TeamHOI, a framework that enables a single decentralized policy to handle cooperative HOIs across any number of cooperating agents. Each agent operates using local observations while attending to other teammates through a Transformer-based policy network with teammate tokens, allowing scalable coordination across variable team sizes. To enforce motion realism while addressing the scarcity of cooperative HOI data, we further introduce a masked Adversarial Motion Prior (AMP) strategy that uses single-human reference motions while masking object-interacting body parts during training. The masked regions are then guided through task rewards to produce diverse and physically plausible cooperative behaviors. We evaluate TeamHOI on a challenging cooperative carrying task involving two to eight humanoid agents and varied object geometries. Finally, to promote stable carrying, we design a team-size- and shape-agnostic formation reward. TeamHOI achieves high success rates and demonstrates coherent cooperation across diverse configurations with a single policy.