RACER: Reiche sprachgesteuerte Fehlerwiederherstellungsrichtlinien für ImitationslernenRACER: Rich Language-Guided Failure Recovery Policies for Imitation
Learning
Die Entwicklung robuster und korrigierbarer visuomotorischer Richtlinien für die robotische Manipulation ist aufgrund des Mangels an Selbstwiederherstellungsmechanismen bei Fehlern und der Einschränkungen einfacher Sprachanweisungen zur Steuerung von Roboteraktionen eine Herausforderung. Um diese Probleme anzugehen, schlagen wir eine skalierbare Datenbereitstellungspipeline vor, die Expertendemonstrationen automatisch mit Fehlerwiederherstellungstrajektorien und fein abgestimmten Sprachannotationen für das Training erweitert. Anschließend stellen wir Rich Language-guided Failure Recovery (RACER) vor, ein Supervisor-Aktor-Framework, das Fehlerwiederherstellungsdaten mit detaillierten Sprachbeschreibungen kombiniert, um die Robotersteuerung zu verbessern. RACER umfasst ein Bildsprachmodell (VLM), das als Online-Supervisor fungiert und detaillierte sprachliche Anleitungen für Fehlerkorrekturen und Aufgabenausführung bereitstellt, sowie eine sprachkonditionierte visuomotorische Richtlinie als Akteur zur Vorhersage der nächsten Aktionen. Unsere experimentellen Ergebnisse zeigen, dass RACER den State-of-the-Art Robotic View Transformer (RVT) auf RLbench in verschiedenen Evaluierungseinstellungen übertrifft, einschließlich Standard-Langzeitaufgaben, dynamischer Zieländerungsaufgaben und Null-Schuss ungesehener Aufgaben, und eine überlegene Leistung sowohl in simulierten als auch in realen Umgebungen erzielt. Videos und Code sind verfügbar unter: https://rich-language-failure-recovery.github.io.