TeamHOI: 임의의 팀 규모에서 협력적 인간-객체 상호작용을 위한 통합 정책 학습
TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size
March 9, 2026
저자: Stefan Lionar, Gim Hee Lee
cs.AI
초록
물리 기반 휴머노이드 제어는 사실적이고 높은 성능의 단일 에이전트 행동 구현에서 눈에 띄는 진전을 이루었지만, 이러한 능력을 협력적 인간-객체 상호작용(HOI)으로 확장하는 것은 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 단일 분산 정책이 임의의 수의 협력 에이전트에 걸쳐 협력적 HOI를 처리할 수 있는 TeamHOI 프레임워크를 제시합니다. 각 에이전트는 지역 관측을 사용하여 작동하면서 팀원 토큰을 활용한 Transformer 기반 정책 네트워크를 통해 다른 팀원에게 주의를 기울여, 변동하는 팀 규모에 걸쳐 확장 가능한 조정을 가능하게 합니다. 협력적 HOI 데이터의 부족 문제를 해결하면서 동작의 사실성을 확보하기 위해, 우리는 단일 인간 참조 동작을 사용하지만 훈련 중 객체와 상호작용하는 신체 부위를 마스킹하는 마스킹된 적대적 동작 사전(AMP) 전략을 추가로 도입합니다. 마스킹된 영역은 과제 보상을 통해 다양한 물리적으로 타당한 협력 행동을 생성하도록 유도됩니다. 우리는 TeamHOI를 2개부터 8개까지의 휴머노이드 에이전트와 다양한 객체 기하학이 관련된 도전적인 협력 운반 과제에서 평가합니다. 마지막으로 안정적인 운반을 촉진하기 위해 팀 규모 및 형태에 독립적인 형성 보상을 설계합니다. TeamHOI는 높은 성공률을 달성하고 단일 정책으로 다양한 구성에서 일관된 협력을 보여줍니다.
English
Physics-based humanoid control has achieved remarkable progress in enabling realistic and high-performing single-agent behaviors, yet extending these capabilities to cooperative human-object interaction (HOI) remains challenging. We present TeamHOI, a framework that enables a single decentralized policy to handle cooperative HOIs across any number of cooperating agents. Each agent operates using local observations while attending to other teammates through a Transformer-based policy network with teammate tokens, allowing scalable coordination across variable team sizes. To enforce motion realism while addressing the scarcity of cooperative HOI data, we further introduce a masked Adversarial Motion Prior (AMP) strategy that uses single-human reference motions while masking object-interacting body parts during training. The masked regions are then guided through task rewards to produce diverse and physically plausible cooperative behaviors. We evaluate TeamHOI on a challenging cooperative carrying task involving two to eight humanoid agents and varied object geometries. Finally, to promote stable carrying, we design a team-size- and shape-agnostic formation reward. TeamHOI achieves high success rates and demonstrates coherent cooperation across diverse configurations with a single policy.