Aprendizado de Robôs Sim-para-Real com Zero-Shot: Um Estudo de Manipulação Hábil sobre Captura Reativa

Resumo

A manipulação hábil é intensiva em física e altamente sensível a erros de modelagem e ruído de percepção, tornando a transferência sim-para-real extremamente desafiadora. A randomização de domínio (DR) é comumente utilizada para melhorar a robustez de políticas aprendidas para tais tarefas, mas a DR convencional randomiza uma instância por episódio, oferecendo exposição muito limitada à variabilidade da dinâmica do mundo real. Para tal, propomos o Conjunto de Instâncias Randomizadas por Domínio (DRIS), que representa e propaga simultaneamente um conjunto de instâncias randomizadas, proporcionando uma aproximação mais rica da dinâmica incerta e permitindo que as políticas aprendam ações que levem em conta múltiplos resultados possíveis. Apoiados por análise teórica, mostramos que o DRIS produz políticas mais robustas e alivia a necessidade de ajuste fino no mundo real, mesmo com um número modesto de instâncias (por exemplo, 10). Demonstramos isso em uma tarefa desafiadora de captura reativa. Diferentemente das configurações tradicionais de captura que usam efetuadores finais projetados para estabilizar mecanicamente o objeto (por exemplo, superfícies curvas ou envolventes), nosso sistema utiliza uma placa plana que não oferece estabilização passiva, tornando a tarefa altamente sensível a ruídos e exigindo movimentos reativos rápidos. As políticas aprendidas apresentam forte robustez a incertezas e alcançam uma transferência sim-para-real confiável sem ajuste adicional.

English

Dexterous manipulation is physics-intensive and highly sensitive to modeling errors and perception noise, making sim-to-real transfer prohibitively challenging. Domain randomization (DR) is commonly used to improve the robustness of learned policies for such tasks, but conventional DR randomizes one instance per episode, offering very limited exposure to the variability of real-world dynamics. To this end, we propose Domain-Randomized Instance Set (DRIS), which represents and propagates a set of randomized instances simultaneously, providing richer approximation of uncertain dynamics and enabling policies to learn actions that account for multiple possible outcomes. Supported by theoretical analysis, we show that DRIS yields more robust policies and alleviates the need for real-world fine-tuning, even with a modest number of instances (e.g., 10). We demonstrate this on a challenging reactive catching task. Unlike traditional catching setups that use end-effectors designed to mechanically stabilize the object (e.g., curved or enclosing surfaces), our system uses a flat plate that offers no passive stabilization, making the task highly sensitive to noise and requiring rapid reactive motions. The learned policies exhibit strong robustness to uncertainties and achieve reliable zero-shot sim-to-real transfer.