Zero-Shot Sim-to-Real Robotleren: Een Studie naar Behendige Manipulatie bij Reactief Vangen

Samenvatting

Behendige manipulatie is intensief in termen van natuurkunde en zeer gevoelig voor modelleringsfouten en perceptieruis, waardoor de overdracht van simulatie naar realiteit bijzonder uitdagend is. Domeinrandomisatie (DR) wordt vaak gebruikt om de robuustheid van aangeleerd beleid voor dergelijke taken te verbeteren, maar conventionele DR randomiseert één instantie per episode, wat een zeer beperkte blootstelling biedt aan de variabiliteit van dynamica in de echte wereld. Daartoe stellen we Domein-Gerandomiseerde Instantieset (DRIS) voor, die een set gerandomiseerde instanties tegelijkertijd representeert en propageert, waardoor een rijkere benadering van onzekere dynamica wordt geboden en beleid in staat wordt gesteld acties te leren die rekening houden met meerdere mogelijke uitkomsten. Ondersteund door theoretische analyse tonen we aan dat DRIS robuustere beleid oplevert en de noodzaak voor fijnafstemming in de echte wereld vermindert, zelfs met een bescheiden aantal instanties (bijv. 10). We demonstreren dit op een uitdagende reactieve vangtaak. In tegenstelling tot traditionele vangopstellingen die eindeffectors gebruiken die zijn ontworpen om het object mechanisch te stabiliseren (bijv. gebogen of omsluitende oppervlakken), maakt ons systeem gebruik van een vlakke plaat die geen passieve stabilisatie biedt, waardoor de taak zeer gevoelig is voor ruis en snelle reactieve bewegingen vereist. Het aangeleerde beleid vertoont sterke robuustheid tegen onzekerheden en bereikt betrouwbare zero-shot overdracht van simulatie naar realiteit.

English

Dexterous manipulation is physics-intensive and highly sensitive to modeling errors and perception noise, making sim-to-real transfer prohibitively challenging. Domain randomization (DR) is commonly used to improve the robustness of learned policies for such tasks, but conventional DR randomizes one instance per episode, offering very limited exposure to the variability of real-world dynamics. To this end, we propose Domain-Randomized Instance Set (DRIS), which represents and propagates a set of randomized instances simultaneously, providing richer approximation of uncertain dynamics and enabling policies to learn actions that account for multiple possible outcomes. Supported by theoretical analysis, we show that DRIS yields more robust policies and alleviates the need for real-world fine-tuning, even with a modest number of instances (e.g., 10). We demonstrate this on a challenging reactive catching task. Unlike traditional catching setups that use end-effectors designed to mechanically stabilize the object (e.g., curved or enclosing surfaces), our system uses a flat plate that offers no passive stabilization, making the task highly sensitive to noise and requiring rapid reactive motions. The learned policies exhibit strong robustness to uncertainties and achieve reliable zero-shot sim-to-real transfer.