OASIS: Da Coleta de Dados de Simulação à Locomoção-Manipulação Humanoide no Mundo Real

Resumo

O progresso recente na manipulação robótica tem sido amplamente impulsionado pelo aprendizado a partir de demonstrações em larga escala. Para tarefas de loco-manipulação de robôs humanoides, no entanto, as fontes de dados existentes impõem uma troca insatisfatória entre qualidade da trajetória e escalabilidade. A teleoperação no mundo real fornece trajetórias da mais alta qualidade, mas requer espaço físico dedicado e redefinições de cena demoradas. A simulação oferece uma alternativa para sair desse dilema: pode produzir dados limpos e alinhados ao corpo em escala, sem qualquer hardware físico. Neste artigo, propomos o OASIS, uma estrutura baseada em dados de simulação para loco-manipulação humanoide. O OASIS reconstrói automaticamente ativos de objetos realistas a partir de imagens do mundo real usando um modelo generativo 3D. Com base nesses ativos, as trajetórias são primeiro coletadas por teleoperação em simulação e, em seguida, aumentadas sob diversas randomizações de domínio em uma etapa de pós-processamento. Com os dados de simulação resultantes, projetamos ainda uma política visuomotora hierárquica para loco-manipulação humanoide. Experimentos extensivos no robô humanoide real mostram que, sob implantação zero-shot, a política treinada com nossos dados de simulação alcança taxas de sucesso mais altas na maioria das tarefas do que aquela treinada com dados de teleoperação de robô real, em grande parte devido às amplas variações de iluminação e ambientais cobertas pela nossa renderização de simulação, que os dados de robô real falham em capturar. A página do projeto está disponível em https://oasis-humanoid.github.io/.

English

Recent progress in robot manipulation has been largely driven by learning from large-scale demonstrations. For humanoid robot loco-manipulation tasks, however, existing data sources force an unsatisfying tradeoff between trajectory quality and scalability. Real-world teleoperation provides the highest-quality trajectories but requires dedicated physical space and time-consuming scene resets. Simulation offers an alternative way out of this dilemma: it can produce clean, embodiment-aligned data at scale without any physical hardware. In this paper, we propose OASIS, a simulation-data-driven framework for humanoid loco-manipulation. OASIS automatically reconstructs realistic object assets from real-world images using a 3D generative model. Based on these assets, trajectories are first collected through teleoperation in simulation, and then augmented under diverse domain randomizations in a post-processing stage. With the resulting simulation data, we further design a hierarchical visuomotor policy for humanoid loco-manipulation. Extensive experiments on the real humanoid robot show that, under zero-shot deployment, the policy trained on our simulation data achieves higher success rates on most tasks than that trained on real-robot teleoperation data, owing largely to the broad lighting and environmental variations covered by our simulation rendering, which real-robot data fails to capture. The project page is available at https://oasis-humanoid.github.io/.