Поиск, направляемый обучением с подкреплением, с мягким слиянием для робастного мультимодального имитационного обучения при отсутствующих модальностях

Аннотация

Робототехнические системы воспринимают окружающий мир через множество входных модальностей, включая визуальные потоки с камер и инструкции на естественном языке, и должны выбирать соответствующие действия на основе этих сигналов. Однако предположение о постоянной доступности всех устройств ввода нереалистично, так как датчики могут выходить из строя, заслоняться или полностью отключаться во время эксплуатации. Надежная обработка таких сценариев с пропущенными модальностями, следовательно, является необходимой для реальной работы роботов. В данной статье представлен RL4IL — метод имитационного обучения, управляемый обучением с подкреплением, который выбирает наиболее подходящее действие для данного наблюдения путем идентификации наиболее релевантных экспертных демонстраций из обучающей библиотеки. Политика обучения с подкреплением, обученная с помощью оптимизации ближайшей политики на наборах кандидатов, найденных с использованием поиска в ширину, ранжирует кандидатные демонстрации, а мягкий гибридный модуль с перекрестным вниманием агрегирует их сигналы действий для получения окончательного предсказания. Когда модальность отсутствует во время вывода, специальная политика извлечения данных для каждой модальности на основе обучения с подкреплением идентифицирует демонстрации-доноры из обучающей библиотеки, а мягкий модуль импутации восстанавливает недостающее вложение через перекрестное внимание к лучшим донорам — без необходимости переобучения системы. Эксперименты на трех наборах тестов LIBERO показывают, что RL4IL значительно превосходит современные методы имитационного обучения в условиях отключения датчиков, при этом не требуя обучения сети политики. Код доступен по адресу https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera.

English

Robotic systems perceive the world through multiple input modalities -- including visual camera streams and natural language instructions -- and must select appropriate actions based on these signals. However, assuming the permanent availability of all input devices is unrealistic, as sensors may fail, become occluded, or drop out entirely during deployment. Robust handling of such missing-modality scenarios is therefore essential for real-world robot operation. This paper introduces RL4IL, a reinforcement learning guided method for imitation learning that selects the most suitable action for a given observation by identifying the most relevant expert demonstrations from a training library. A reinforcement learning policy, trained via Proximal Policy Optimisation over Breadth-First Search candidate sets, ranks candidate demonstrations and a soft cross-attention fusion head aggregates their action signals to produce the final prediction. When a modality is missing at inference time, a dedicated per-modality RL retrieval policy identifies donor demonstrations from the training library, and a soft imputation head reconstructs the missing embedding via cross-attention over the top-ranked donors -- without requiring any retraining of the system. Experiments on three LIBERO benchmark suites demonstrate that RL4IL substantially outperforms state-of-the-art imitation learning methods under sensor dropout conditions, while requiring no policy network training. The code can be found at https://github.com/h-ismkhan/Reinforcement-Learning-via-kNN-for-Robotic-Learning-with-Missing-Camera