Облегченное визуальное мышление для социально адаптированных роботов

Аннотация

Роботы, работающие в общих с человеком средах, должны не только ориентироваться, взаимодействовать и детектировать окружение, но также интерпретировать и реагировать на динамичное, зачастую непредсказуемое поведение людей. Хотя последние достижения демонстрируют прогресс в улучшении восприятия и выполнения инструкций роботами с использованием Vision-Language Models (VLM), они остаются ограниченными в решении сложностей многомодального человеко-роботного взаимодействия (HRI). Мотивированные этой проблемой, мы представляем легковесный модуль языково-визуальной обратной связи, замыкающий цикл между LLM и визуальным энкодером в VLM. Модуль проецирует скрытые состояния image-токенов через gated Multi-Layer Perceptron (MLP) обратно на вход энкодера, инициируя второй проход, который переинтерпретирует сцену в контексте текста. Мы оцениваем этот подход на трех робототехнических задачах: навигация в симулированной среде (Habitat), последовательное описание сцен (Mementos-Robotics) и распознавание человеческих намерений (наш набор данных HRI). Результаты показывают, что наш метод улучшает Qwen 2.5 (7B) на 3.3% (меньшее расстояние), +0.057 балла за описание и +2.93% точности при менее чем 3% дополнительных параметров; Gemma 3 (4B) и LLaVA OV 1.5 (4B) демонстрируют смешанные результаты в навигации, но улучшения +0.111,+0.055 и +10.81%,+4.79% на двух последних задачах. Код доступен по адресу https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics.

English

Robots operating in shared human environments must not only navigate, interact, and detect their surroundings, they must also interpret and respond to dynamic, and often unpredictable, human behaviours. Although recent advances have shown promise in enhancing robotic perception and instruction-following using Vision-Language Models (VLMs), they remain limited in addressing the complexities of multimodal human-robot interactions (HRI). Motivated by this challenge, we introduce a lightweight language-to-vision feedback module that closes the loop between an LLM and the vision encoder in VLMs. The module projects image-token hidden states through a gated Multi-Layer Perceptron (MLP) back into the encoder input, prompting a second pass that reinterprets the scene under text context. We evaluate this approach on three robotics-centred tasks: navigation in a simulated environment (Habitat), sequential scene description (Mementos-Robotics), and human-intention recognition (our HRI dataset). Results show that our method improves Qwen 2.5 (7B) by 3.3% (less distance), +0.057 description score, and +2.93% accuracy, with less than 3% extra parameters; Gemma 3 (4B) and LLaVA OV 1.5 (4B) show mixed navigation results but gains +0.111,+0.055 and +10.81%,+4.79% on the latter two tasks. Code is available at https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics

Облегченное визуальное мышление для социально адаптированных роботов

Lightweight Visual Reasoning for Socially-Aware Robots

Аннотация

Support