Recuperação Guiada por Aprendizado por Reforço com Fusão Suave para Aprendizado por Imitação Multimodal Robusto sob Modalidades Ausentes

Resumo

Os sistemas robóticos percebem o mundo por meio de múltiplas modalidades de entrada — incluindo fluxos de câmera visual e instruções em linguagem natural — e devem selecionar ações apropriadas com base nesses sinais. No entanto, assumir a disponibilidade permanente de todos os dispositivos de entrada é irrealista, pois sensores podem falhar, sofrer oclusão ou desaparecer completamente durante a operação. O tratamento robusto de tais cenários de modalidades ausentes é, portanto, essencial para a operação robótica no mundo real. Este artigo apresenta o RL4IL, um método guiado por aprendizado por reforço para aprendizado por imitação que seleciona a ação mais adequada para uma dada observação, identificando as demonstrações de especialistas mais relevantes de uma biblioteca de treinamento. Uma política de aprendizado por reforço, treinada via Otimização de Política Proximal sobre conjuntos candidatos de Busca em Largura, ranqueia as demonstrações candidatas, e um cabeçalho de fusão por atenção cruzada suave agrega os sinais de ação para produzir a predição final. Quando uma modalidade está ausente no momento da inferência, uma política de recuperação dedicada por modalidade, baseada em aprendizado por reforço, identifica demonstrações doadoras da biblioteca de treinamento, e um cabeçalho de imputação suave reconstrói a incorporação ausente via atenção cruzada sobre os doadores mais bem ranqueados — sem exigir qualquer re-treinamento do sistema. Experimentos em três conjuntos de testes da suíte LIBERO demonstram que o RL4IL supera substancialmente os métodos de aprendizado por imitação do estado da arte sob condições de falha de sensores, sem necessitar de treinamento da rede de política. O código pode ser encontrado em https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera.

English

Robotic systems perceive the world through multiple input modalities -- including visual camera streams and natural language instructions -- and must select appropriate actions based on these signals. However, assuming the permanent availability of all input devices is unrealistic, as sensors may fail, become occluded, or drop out entirely during deployment. Robust handling of such missing-modality scenarios is therefore essential for real-world robot operation. This paper introduces RL4IL, a reinforcement learning guided method for imitation learning that selects the most suitable action for a given observation by identifying the most relevant expert demonstrations from a training library. A reinforcement learning policy, trained via Proximal Policy Optimisation over Breadth-First Search candidate sets, ranks candidate demonstrations and a soft cross-attention fusion head aggregates their action signals to produce the final prediction. When a modality is missing at inference time, a dedicated per-modality RL retrieval policy identifies donor demonstrations from the training library, and a soft imputation head reconstructs the missing embedding via cross-attention over the top-ranked donors -- without requiring any retraining of the system. Experiments on three LIBERO benchmark suites demonstrate that RL4IL substantially outperforms state-of-the-art imitation learning methods under sensor dropout conditions, while requiring no policy network training. The code can be found at https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera