Recherche guidée par apprentissage par renforcement avec fusion douce pour un apprentissage par imitation multimodal robuste en cas de modalités manquantes

Résumé

Les systèmes robotiques perçoivent le monde à travers de multiples modalités d'entrée — notamment des flux de caméra visuelle et des instructions en langage naturel — et doivent sélectionner des actions appropriées en fonction de ces signaux. Cependant, supposer la disponibilité permanente de tous les dispositifs d'entrée est irréaliste, car les capteurs peuvent tomber en panne, être occultés, ou disparaître complètement lors du déploiement. Une gestion robuste de ces scénarios de modalité manquante est donc essentielle pour le fonctionnement des robots dans le monde réel. Cet article présente RL4IL, une méthode d'apprentissage par imitation guidée par l'apprentissage par renforcement, qui sélectionne l'action la plus appropriée pour une observation donnée en identifiant les démonstrations d'experts les plus pertinentes dans une bibliothèque d'apprentissage. Une politique d'apprentissage par renforcement, entraînée via l'Optimisation de Politique Proximale sur des ensembles de candidats issus de la recherche en largeur, classe les démonstrations candidates, et une tête de fusion par attention croisée douce agrège leurs signaux d'action pour produire la prédiction finale. Lorsqu'une modalité est manquante au moment de l'inférence, une politique de récupération RL dédiée par modalité identifie les démonstrations donatrices dans la bibliothèque d'apprentissage, et une tête d'imputation douce reconstruit le plongement manquant via une attention croisée sur les donatrices les mieux classées — sans nécessiter de réentraînement du système. Des expériences sur trois suites de référence LIBERO montrent que RL4IL surpasse considérablement les méthodes d'apprentissage par imitation de pointe dans des conditions de perte de capteurs, tout en ne nécessitant aucun entraînement du réseau de politique. Le code est disponible à l'adresse https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera

English

Robotic systems perceive the world through multiple input modalities -- including visual camera streams and natural language instructions -- and must select appropriate actions based on these signals. However, assuming the permanent availability of all input devices is unrealistic, as sensors may fail, become occluded, or drop out entirely during deployment. Robust handling of such missing-modality scenarios is therefore essential for real-world robot operation. This paper introduces RL4IL, a reinforcement learning guided method for imitation learning that selects the most suitable action for a given observation by identifying the most relevant expert demonstrations from a training library. A reinforcement learning policy, trained via Proximal Policy Optimisation over Breadth-First Search candidate sets, ranks candidate demonstrations and a soft cross-attention fusion head aggregates their action signals to produce the final prediction. When a modality is missing at inference time, a dedicated per-modality RL retrieval policy identifies donor demonstrations from the training library, and a soft imputation head reconstructs the missing embedding via cross-attention over the top-ranked donors -- without requiring any retraining of the system. Experiments on three LIBERO benchmark suites demonstrate that RL4IL substantially outperforms state-of-the-art imitation learning methods under sensor dropout conditions, while requiring no policy network training. The code can be found at https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera