Apprentissage robotique Sim-to-Real en zero-shot : une étude de manipulation dextre sur la capture réactive

Résumé

La manipulation dextre est très exigeante en termes de physique et extrêmement sensible aux erreurs de modélisation et au bruit de perception, ce qui rend le transfert sim-vers-réel particulièrement difficile. La randomisation de domaine (DR) est couramment utilisée pour améliorer la robustesse des politiques apprises pour de telles tâches, mais la DR conventionnelle randomise une instance par épisode, offrant ainsi une exposition très limitée à la variabilité des dynamiques du monde réel. À cette fin, nous proposons l’Ensemble d’Instances Randomisées de Domaine (DRIS), qui représente et propage simultanément un ensemble d’instances randomisées, offrant une approximation plus riche des dynamiques incertaines et permettant aux politiques d’apprendre des actions tenant compte de multiples résultats possibles. Soutenu par une analyse théorique, nous montrons que DRIS génère des politiques plus robustes et réduit le besoin de réglage fin dans le monde réel, même avec un nombre modeste d’instances (par exemple, 10). Nous le démontrons sur une tâche exigeante de rattrapage réactif. Contrairement aux configurations de rattrapage traditionnelles qui utilisent des effecteurs conçus pour stabiliser mécaniquement l’objet (par exemple, des surfaces courbes ou enveloppantes), notre système utilise une plaque plate n’offrant aucune stabilisation passive, rendant la tâche très sensible au bruit et nécessitant des mouvements réactifs rapides. Les politiques apprises présentent une forte robustesse face aux incertitudes et réalisent un transfert sim-vers-réel zero-shot fiable.

English

Dexterous manipulation is physics-intensive and highly sensitive to modeling errors and perception noise, making sim-to-real transfer prohibitively challenging. Domain randomization (DR) is commonly used to improve the robustness of learned policies for such tasks, but conventional DR randomizes one instance per episode, offering very limited exposure to the variability of real-world dynamics. To this end, we propose Domain-Randomized Instance Set (DRIS), which represents and propagates a set of randomized instances simultaneously, providing richer approximation of uncertain dynamics and enabling policies to learn actions that account for multiple possible outcomes. Supported by theoretical analysis, we show that DRIS yields more robust policies and alleviates the need for real-world fine-tuning, even with a modest number of instances (e.g., 10). We demonstrate this on a challenging reactive catching task. Unlike traditional catching setups that use end-effectors designed to mechanically stabilize the object (e.g., curved or enclosing surfaces), our system uses a flat plate that offers no passive stabilization, making the task highly sensitive to noise and requiring rapid reactive motions. The learned policies exhibit strong robustness to uncertainties and achieve reliable zero-shot sim-to-real transfer.