Recuperación guiada por aprendizaje por refuerzo con fusión suave para un aprendizaje por imitación multimodal robusto bajo modalidades faltantes

Resumen

Los sistemas robóticos perciben el mundo a través de múltiples modalidades de entrada, incluyendo flujos de cámara visual e instrucciones en lenguaje natural, y deben seleccionar acciones apropiadas basándose en estas señales. Sin embargo, asumir la disponibilidad permanente de todos los dispositivos de entrada es poco realista, ya que los sensores pueden fallar, ocluirse o desconectarse por completo durante el despliegue. Por lo tanto, el manejo robusto de estos escenarios de modalidad faltante es esencial para la operación robótica en el mundo real. Este artículo presenta RL4IL, un método guiado por aprendizaje por refuerzo para el aprendizaje por imitación que selecciona la acción más adecuada para una observación dada identificando las demostraciones de expertos más relevantes de una biblioteca de entrenamiento. Una política de aprendizaje por refuerzo, entrenada mediante Optimización de Política Proximal sobre conjuntos candidatos de Búsqueda en Anchura, clasifica las demostraciones candidatas y una cabeza de fusión de atención cruzada suave agrega sus señales de acción para producir la predicción final. Cuando una modalidad falta en el momento de la inferencia, una política de recuperación RL dedicada por modalidad identifica demostraciones donantes de la biblioteca de entrenamiento, y una cabeza de imputación suave reconstruye la incrustación faltante mediante atención cruzada sobre los donantes mejor clasificados, sin requerir ningún reentrenamiento del sistema. Los experimentos en tres conjuntos de referencia LIBERO demuestran que RL4IL supera sustancialmente a los métodos de aprendizaje por imitación de última generación en condiciones de desconexión de sensores, sin requerir entrenamiento de la red de políticas. El código se puede encontrar en https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera.

English

Robotic systems perceive the world through multiple input modalities -- including visual camera streams and natural language instructions -- and must select appropriate actions based on these signals. However, assuming the permanent availability of all input devices is unrealistic, as sensors may fail, become occluded, or drop out entirely during deployment. Robust handling of such missing-modality scenarios is therefore essential for real-world robot operation. This paper introduces RL4IL, a reinforcement learning guided method for imitation learning that selects the most suitable action for a given observation by identifying the most relevant expert demonstrations from a training library. A reinforcement learning policy, trained via Proximal Policy Optimisation over Breadth-First Search candidate sets, ranks candidate demonstrations and a soft cross-attention fusion head aggregates their action signals to produce the final prediction. When a modality is missing at inference time, a dedicated per-modality RL retrieval policy identifies donor demonstrations from the training library, and a soft imputation head reconstructs the missing embedding via cross-attention over the top-ranked donors -- without requiring any retraining of the system. Experiments on three LIBERO benchmark suites demonstrate that RL4IL substantially outperforms state-of-the-art imitation learning methods under sensor dropout conditions, while requiring no policy network training. The code can be found at https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera