Bestärkendes Lernen-gesteuertes Retrieval mit weicher Fusion für robustes multimodales Imitationslernen bei fehlenden Modalitäten

Zusammenfassung

Robotische Systeme nehmen die Welt durch mehrere Eingabemodalitäten wahr – darunter visuelle Kamera-Streams und Anweisungen in natürlicher Sprache – und müssen basierend auf diesen Signalen geeignete Aktionen auswählen. Allerdings ist die Annahme einer permanenten Verfügbarkeit aller Eingabegeräte unrealistisch, da Sensoren während des Einsatzes ausfallen, verdeckt werden oder vollständig ausfallen können. Eine robuste Handhabung solcher Szenarien fehlender Modalitäten ist daher für den realen Roboterbetrieb unerlässlich. Dieser Beitrag stellt RL4IL vor, eine durch Verstärkungslernen gesteuerte Methode für Imitation Learning, die die am besten geeignete Aktion für eine gegebene Beobachtung auswählt, indem sie die relevantesten Expertendemonstrationen aus einer Trainingsbibliothek identifiziert. Eine Verstärkungslern-Policy, trainiert durch Proximale Politikoptimierung über Breitensuch-Kandidatenmengen, bewertet Kandidatendemonstrationen, und ein weicher Kreuzaufmerksamkeits-Fusionskopf aggregiert deren Aktionssignale, um die endgültige Vorhersage zu erzeugen. Wenn eine Modalität zur Inferenzzeit fehlt, identifiziert eine dedizierte, modalitätsspezifische RL-Abrufpolicy Spenderdemonstrationen aus der Trainingsbibliothek, und ein weicher Imputationskopf rekonstruiert die fehlende Einbettung mittels Kreuzaufmerksamkeit über die am besten bewerteten Spender – ohne dass ein erneutes Training des Systems erforderlich ist. Experimente mit drei LIBERO-Benchmark-Suiten zeigen, dass RL4IL unter Sensorausfallbedingungen moderne Imitation-Learning-Methoden deutlich übertrifft, ohne dass ein Training des Policy-Netzwerks erforderlich ist. Der Code ist unter https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera zu finden.

English

Robotic systems perceive the world through multiple input modalities -- including visual camera streams and natural language instructions -- and must select appropriate actions based on these signals. However, assuming the permanent availability of all input devices is unrealistic, as sensors may fail, become occluded, or drop out entirely during deployment. Robust handling of such missing-modality scenarios is therefore essential for real-world robot operation. This paper introduces RL4IL, a reinforcement learning guided method for imitation learning that selects the most suitable action for a given observation by identifying the most relevant expert demonstrations from a training library. A reinforcement learning policy, trained via Proximal Policy Optimisation over Breadth-First Search candidate sets, ranks candidate demonstrations and a soft cross-attention fusion head aggregates their action signals to produce the final prediction. When a modality is missing at inference time, a dedicated per-modality RL retrieval policy identifies donor demonstrations from the training library, and a soft imputation head reconstructs the missing embedding via cross-attention over the top-ranked donors -- without requiring any retraining of the system. Experiments on three LIBERO benchmark suites demonstrate that RL4IL substantially outperforms state-of-the-art imitation learning methods under sensor dropout conditions, while requiring no policy network training. The code can be found at https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera