Reinforcement Learning-gestuurde Retrieval met Soft Fusion voor robuust multimodaal imitatieleren bij ontbrekende modaliteiten

Samenvatting

Robotische systemen nemen de wereld waar via meerdere invoermodaliteiten – waaronder visuele camerastromen en natuurlijke taalopdrachten – en moeten op basis van deze signalen de juiste acties kiezen. Het is echter onrealistisch om aan te nemen dat alle invoerapparaten permanent beschikbaar zijn, aangezien sensoren kunnen falen, geblokkeerd raken of volledig uitvallen tijdens de inzet. Robuust omgaan met dergelijke scenario's van ontbrekende modaliteiten is daarom essentieel voor realistische robotwerking. Dit artikel introduceert RL4IL, een door reinforcement learning gestuurde methode voor imitatie leren die de meest geschikte actie voor een gegeven waarneming selecteert door de meest relevante expertdemonstraties uit een trainingsbibliotheek te identificeren. Een reinforcement learning-beleid, getraind via Proximal Policy Optimization op basis van Breadth-First Search-kandidaatsets, rangschikt kandidaatdemonstraties en een soft cross-attention-fusiehoofd aggregeert hun actiesignalen om de uiteindelijke voorspelling te genereren. Wanneer een modaliteit ontbreekt tijdens de inferentie, identificeert een specifiek per-modaliteit RL-retrievalbeleid donordemonstraties uit de trainingsbibliotheek, en een zacht imputatiehoofd reconstrueert de ontbrekende inbedding via cross-attention over de best gerangschikte donoren – zonder dat enige hertraining van het systeem nodig is. Experimenten op drie LIBERO-benchmarksuites tonen aan dat RL4IL aanzienlijk beter presteert dan state-of-the-art imitatieleermethoden onder sensoruitvalcondities, terwijl er geen training van het beleidsnetwerk vereist is. De code is te vinden op https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera.

English

Robotic systems perceive the world through multiple input modalities -- including visual camera streams and natural language instructions -- and must select appropriate actions based on these signals. However, assuming the permanent availability of all input devices is unrealistic, as sensors may fail, become occluded, or drop out entirely during deployment. Robust handling of such missing-modality scenarios is therefore essential for real-world robot operation. This paper introduces RL4IL, a reinforcement learning guided method for imitation learning that selects the most suitable action for a given observation by identifying the most relevant expert demonstrations from a training library. A reinforcement learning policy, trained via Proximal Policy Optimisation over Breadth-First Search candidate sets, ranks candidate demonstrations and a soft cross-attention fusion head aggregates their action signals to produce the final prediction. When a modality is missing at inference time, a dedicated per-modality RL retrieval policy identifies donor demonstrations from the training library, and a soft imputation head reconstructs the missing embedding via cross-attention over the top-ranked donors -- without requiring any retraining of the system. Experiments on three LIBERO benchmark suites demonstrate that RL4IL substantially outperforms state-of-the-art imitation learning methods under sensor dropout conditions, while requiring no policy network training. The code can be found at https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera