ChatPaper.aiChatPaper

OmniHumanoid: 페어 없는 적응을 통한 스트리밍 교차 신체 비디오 생성

OmniHumanoid: Streaming Cross-Embodiment Video Generation with Paired-Free Adaptation

May 12, 2026
저자: Yiren Song, Xiyao Deng, Pei Yang, Yihan Wang, Mike Zheng Shou
cs.AI

초록

교차 구현 비디오 생성은 인간-로봇 및 로봇-로봇 간 다양한 인간형 구현체 전반에 걸쳐 동작을 전이하는 것을 목표로 하며, 이를 통해 구현 지능을 위한 확장 가능한 데이터 생성을 가능하게 한다. 이러한 설정에서의 주요 난제는 동작 역학이 구현체 간 부분적으로 전이 가능한 반면, 외형과 형태는 구현체 특정적이라는 점이다. 기존 접근법은 이러한 요인들을 종종 얽히게 하며, 많은 경우 모든 대상 구현체에 대해 쌍을 이룬 데이터가 필요하므로 새로운 로봇으로의 확장성에 제한이 있다. 본 논문에서는 전이 가능한 동작 학습과 구현체 특정 적응을 분해하는 프레임워크인 OmniHumanoid를 제안한다. 본 방법은 여러 구현체에 걸쳐 동작 정렬된 쌍 비디오로부터 공유 동작 전이 모델을 학습하는 동시에, 경량의 구현체 특정 어댑터를 통해 짝 없는 비디오만을 사용하여 새로운 구현체에 적응한다. 동작 전이와 구현체 적응 간의 간섭을 줄이기 위해, 동작 조건화와 구현체 특정 변조를 분리하는 분기 분리 주의 설계를 추가로 도입한다. 또한, 다양한 인간형 자산, 장면 및 시점에 걸쳐 렌더링된 동작 정렬 쌍 비디오로 구성된 합성 교차 구현 데이터셋을 구축한다. 합성 및 실제 벤치마크 실험 결과, OmniHumanoid는 높은 동작 충실도와 구현 일관성을 달성하면서, 공유 동작 모델을 재학습하지 않고도 보이지 않는 인간형 구현체로의 확장 가능한 적응을 가능하게 함을 보여준다.
English
Cross-embodiment video generation aims to transfer motions across different humanoid embodiments, such as human-to-robot and robot-to-robot, enabling scalable data generation for embodied intelligence. A major challenge in this setting is that motion dynamics are partly transferable across embodiments, whereas appearance and morphology remain embodiment-specific. Existing approaches often entangle these factors, and many require paired data for every target embodiment, which limits scalability to new robots. We present OmniHumanoid, a framework that factorizes transferable motion learning and embodiment-specific adaptation. Our method learns a shared motion transfer model from motion-aligned paired videos spanning multiple embodiments, while adapting to a new embodiment using only unpaired videos through lightweight embodiment-specific adapters. To reduce interference between motion transfer and embodiment adaptation, we further introduce a branch-isolated attention design that separates motion conditioning from embodiment-specific modulation. In addition, we construct a synthetic cross-embodiment dataset with motion-aligned paired videos rendered across diverse humanoid assets, scenes, and viewpoints. Experiments on both synthetic and real-world benchmarks show that OmniHumanoid achieves strong motion fidelity and embodiment consistency, while enabling scalable adaptation to unseen humanoid embodiments without retraining the shared motion model.