Zero-Shot Sim-to-Real Roboterlernen: Eine Studie zur geschickten Manipulation beim reaktiven Fangen

Zusammenfassung

Dextere Manipulation ist physikintensiv und hochgradig empfindlich gegenüber Modellierungsfehlern und Wahrnehmungsrauschen, was den Sim-to-Real-Transfer außerordentlich herausfordernd macht. Domänenrandomisierung (DR) wird üblicherweise eingesetzt, um die Robustheit gelernter Policys für solche Aufgaben zu verbessern, doch konventionelle DR randomisiert eine Instanz pro Episode und bietet somit nur sehr begrenzte Exposition gegenüber der Variabilität realer Dynamiken. Zu diesem Zweck schlagen wir die Domänen-randomisierte Instanzmenge (DRIS) vor, die eine Menge randomisierter Instanzen gleichzeitig repräsentiert und propagiert, eine reichhaltigere Approximation unsicherer Dynamiken ermöglicht und es Policys erlaubt, Aktionen zu lernen, die mehrere mögliche Ergebnisse berücksichtigen. Gestützt durch theoretische Analysen zeigen wir, dass DRIS robustere Policys hervorbringt und die Notwendigkeit von Feinanpassungen in der realen Welt verringert – selbst mit einer bescheidenen Anzahl von Instanzen (z.B. 10). Wir demonstrieren dies an einer anspruchsvollen reaktiven Fangaufgabe. Im Gegensatz zu traditionellen Fangvorrichtungen, die Endeffektoren nutzen, die das Objekt mechanisch stabilisieren (z.B. gekrümmte oder umschließende Oberflächen), verwendet unser System eine flache Platte, die keine passive Stabilisierung bietet, was die Aufgabe gegenüber Rauschen sehr empfindlich macht und schnelle reaktive Bewegungen erfordert. Die gelernten Policys zeigen eine starke Robustheit gegenüber Unsicherheiten und ermöglichen einen zuverlässigen Zero-Shot Sim-to-Real-Transfer.

English

Dexterous manipulation is physics-intensive and highly sensitive to modeling errors and perception noise, making sim-to-real transfer prohibitively challenging. Domain randomization (DR) is commonly used to improve the robustness of learned policies for such tasks, but conventional DR randomizes one instance per episode, offering very limited exposure to the variability of real-world dynamics. To this end, we propose Domain-Randomized Instance Set (DRIS), which represents and propagates a set of randomized instances simultaneously, providing richer approximation of uncertain dynamics and enabling policies to learn actions that account for multiple possible outcomes. Supported by theoretical analysis, we show that DRIS yields more robust policies and alleviates the need for real-world fine-tuning, even with a modest number of instances (e.g., 10). We demonstrate this on a challenging reactive catching task. Unlike traditional catching setups that use end-effectors designed to mechanically stabilize the object (e.g., curved or enclosing surfaces), our system uses a flat plate that offers no passive stabilization, making the task highly sensitive to noise and requiring rapid reactive motions. The learned policies exhibit strong robustness to uncertainties and achieve reliable zero-shot sim-to-real transfer.