Raciocínio Visual Leve para Robôs Socialmente Conscientes

Resumo

Os robôs que operam em ambientes partilhados com humanos não só precisam de navegar, interagir e detetar o seu entorno, como também devem interpretar e responder a comportamentos humanos dinâmicos e, frequentemente, imprevisíveis. Embora avanços recentes tenham mostrado potencial na melhoria da perceção robótica e no seguimento de instruções através de Modelos de Visão e Linguagem (VLMs), estes continuam limitados na abordagem das complexidades das interações humano-robô (HRI) multimodais. Motivados por este desafio, introduzimos um módulo de feedback leve de linguagem para visão que fecha o ciclo entre um Modelo de Linguagem Grande (LLM) e o codificador de visão nos VLMs. O módulo projeta os estados ocultos dos tokens de imagem através de um Perceptron Multicamadas (MLP) com porta de volta para a entrada do codificador, solicitando uma segunda passagem que reinterpreta a cena sob contexto textual. Avaliamos esta abordagem em três tarefas centradas em robótica: navegação num ambiente simulado (Habitat), descrição sequencial de cenas (Mementos-Robotics) e reconhecimento de intenções humanas (nosso conjunto de dados HRI). Os resultados mostram que o nosso método melhora o Qwen 2.5 (7B) em 3.3% (menos distância), +0.057 de pontuação de descrição e +2.93% de precisão, com menos de 3% de parâmetros extra; o Gemma 3 (4B) e o LLaVA OV 1.5 (4B) mostram resultados mistos na navegação, mas ganhos de +0.111, +0.055 e +10.81%, +4.79% nas duas últimas tarefas. O código está disponível em https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics.

English

Robots operating in shared human environments must not only navigate, interact, and detect their surroundings, they must also interpret and respond to dynamic, and often unpredictable, human behaviours. Although recent advances have shown promise in enhancing robotic perception and instruction-following using Vision-Language Models (VLMs), they remain limited in addressing the complexities of multimodal human-robot interactions (HRI). Motivated by this challenge, we introduce a lightweight language-to-vision feedback module that closes the loop between an LLM and the vision encoder in VLMs. The module projects image-token hidden states through a gated Multi-Layer Perceptron (MLP) back into the encoder input, prompting a second pass that reinterprets the scene under text context. We evaluate this approach on three robotics-centred tasks: navigation in a simulated environment (Habitat), sequential scene description (Mementos-Robotics), and human-intention recognition (our HRI dataset). Results show that our method improves Qwen 2.5 (7B) by 3.3% (less distance), +0.057 description score, and +2.93% accuracy, with less than 3% extra parameters; Gemma 3 (4B) and LLaVA OV 1.5 (4B) show mixed navigation results but gains +0.111,+0.055 and +10.81%,+4.79% on the latter two tasks. Code is available at https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics

Raciocínio Visual Leve para Robôs Socialmente Conscientes

Lightweight Visual Reasoning for Socially-Aware Robots

Resumo

Support