OmniHumanoid: Потоковая генерация видео с перекрёстным воплощением на основе беспарной адаптации

Аннотация

Межтелесная генерация видео направлена на перенос движений между различными гуманоидными воплощениями, например, от человека к роботу и от робота к роботу, что позволяет масштабируемо генерировать данные для воплощенного интеллекта. Основная сложность в этой задаче заключается в том, что динамика движений частично переносима между воплощениями, тогда как внешний вид и морфология остаются специфичными для каждого воплощения. Существующие подходы часто смешивают эти факторы, а многие из них требуют парных данных для каждого целевого воплощения, что ограничивает масштабируемость при переходе к новым роботам. Мы представляем OmniHumanoid — фреймворк, который разделяет обучение переносимых движений и адаптацию к конкретному воплощению. Наш метод обучает общую модель переноса движений на основе парных видео с выравненными движениями, охватывающих множество воплощений, а адаптацию к новому воплощению выполняет с использованием только непарных видео через легковесные адаптеры, специфичные для воплощения. Для снижения интерференции между переносом движений и адаптацией воплощения мы дополнительно вводим дизайн внимания с изолированными ветвями, который разделяет управление движением и специфическую для воплощения модуляцию. Кроме того, мы создаем синтетический межтелесный набор данных с парными видео, выровненными по движениям, отрендеренными с использованием разнообразных гуманоидных ресурсов, сцен и точек обзора. Эксперименты как на синтетических, так и на реальных эталонных данных показывают, что OmniHumanoid достигает высокой точности движений и согласованности воплощения, обеспечивая при этом масштабируемую адаптацию к невиданным ранее гуманоидным воплощениям без переобучения общей модели движений.

English

Cross-embodiment video generation aims to transfer motions across different humanoid embodiments, such as human-to-robot and robot-to-robot, enabling scalable data generation for embodied intelligence. A major challenge in this setting is that motion dynamics are partly transferable across embodiments, whereas appearance and morphology remain embodiment-specific. Existing approaches often entangle these factors, and many require paired data for every target embodiment, which limits scalability to new robots. We present OmniHumanoid, a framework that factorizes transferable motion learning and embodiment-specific adaptation. Our method learns a shared motion transfer model from motion-aligned paired videos spanning multiple embodiments, while adapting to a new embodiment using only unpaired videos through lightweight embodiment-specific adapters. To reduce interference between motion transfer and embodiment adaptation, we further introduce a branch-isolated attention design that separates motion conditioning from embodiment-specific modulation. In addition, we construct a synthetic cross-embodiment dataset with motion-aligned paired videos rendered across diverse humanoid assets, scenes, and viewpoints. Experiments on both synthetic and real-world benchmarks show that OmniHumanoid achieves strong motion fidelity and embodiment consistency, while enabling scalable adaptation to unseen humanoid embodiments without retraining the shared motion model.