Aprendizaje Robótico Zero-Shot de Simulación a Realidad: Un estudio de manipulación diestra sobre captura reactiva

Resumen

La manipulación diestra es intensiva en física y altamente sensible a errores de modelado y ruido de percepción, lo que hace que la transferencia de simulación a realidad sea prohibitivamente desafiante. La aleatorización de dominio (DR) se utiliza comúnmente para mejorar la robustez de las políticas aprendidas para dichas tareas, pero la DR convencional aleatoriza una instancia por episodio, ofreciendo una exposición muy limitada a la variabilidad de la dinámica del mundo real. Con este fin, proponemos el Conjunto de Instancias Aleatorizadas por Dominio (DRIS, por sus siglas en inglés), que representa y propaga un conjunto de instancias aleatorizadas simultáneamente, proporcionando una aproximación más rica de dinámicas inciertas y permitiendo que las políticas aprendan acciones que consideren múltiples resultados posibles. Apoyados por un análisis teórico, mostramos que DRIS produce políticas más robustas y alivia la necesidad de ajuste fino en el mundo real, incluso con un número modesto de instancias (por ejemplo, 10). Demostramos esto en una tarea desafiante de captura reactiva. A diferencia de las configuraciones tradicionales de captura que utilizan efectores finales diseñados para estabilizar mecánicamente el objeto (por ejemplo, superficies curvas o envolventes), nuestro sistema utiliza una placa plana que no ofrece estabilización pasiva, haciendo la tarea altamente sensible al ruido y requiriendo movimientos reactivos rápidos. Las políticas aprendidas exhiben una sólida robustez frente a las incertidumbres y logran una transferencia sim-real fiable sin entrenamiento adicional (zero-shot).

English

Dexterous manipulation is physics-intensive and highly sensitive to modeling errors and perception noise, making sim-to-real transfer prohibitively challenging. Domain randomization (DR) is commonly used to improve the robustness of learned policies for such tasks, but conventional DR randomizes one instance per episode, offering very limited exposure to the variability of real-world dynamics. To this end, we propose Domain-Randomized Instance Set (DRIS), which represents and propagates a set of randomized instances simultaneously, providing richer approximation of uncertain dynamics and enabling policies to learn actions that account for multiple possible outcomes. Supported by theoretical analysis, we show that DRIS yields more robust policies and alleviates the need for real-world fine-tuning, even with a modest number of instances (e.g., 10). We demonstrate this on a challenging reactive catching task. Unlike traditional catching setups that use end-effectors designed to mechanically stabilize the object (e.g., curved or enclosing surfaces), our system uses a flat plate that offers no passive stabilization, making the task highly sensitive to noise and requiring rapid reactive motions. The learned policies exhibit strong robustness to uncertainties and achieve reliable zero-shot sim-to-real transfer.