Raisonnement visuel léger pour des robots socialement conscients

Résumé

Les robots évoluant dans des environnements partagés avec les humains doivent non seulement naviguer, interagir et détecter leur environnement, mais aussi interpréter et répondre à des comportements humains dynamiques et souvent imprévisibles. Bien que des avancées récentes aient montré un potentiel pour améliorer la perception robotique et le suivi d'instructions grâce aux modèles vision-langage (VLM), elles restent limitées face aux complexités des interactions humain-robot (HRI) multimodales. Motivés par ce défi, nous introduisons un module de rétroaction langage-vers-vision léger qui ferme la boucle entre un LLM et l'encodeur visuel des VLM. Le module projette les états cachés des tokens d'image via un Perceptron Multicouche (MLP) à porteuse vers l'entrée de l'encodeur, déclenchant une seconde passe qui réinterprète la scène dans un contexte textuel. Nous évaluons cette approche sur trois tâches centrées sur la robotique : la navigation dans un environnement simulé (Habitat), la description séquentielle de scènes (Mementos-Robotics) et la reconnaissance de l'intention humaine (notre jeu de données HRI). Les résultats montrent que notre méthode améliore Qwen 2.5 (7B) de 3,3 % (distance réduite), +0,057 de score de description et +2,93 % de précision, avec moins de 3 % de paramètres supplémentaires ; Gemma 3 (4B) et LLaVA OV 1.5 (4B) présentent des résultats de navigation mitigés mais des gains de +0,111, +0,055 et +10,81 %, +4,79 % sur les deux dernières tâches. Le code est disponible à l'adresse https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics.

English

Robots operating in shared human environments must not only navigate, interact, and detect their surroundings, they must also interpret and respond to dynamic, and often unpredictable, human behaviours. Although recent advances have shown promise in enhancing robotic perception and instruction-following using Vision-Language Models (VLMs), they remain limited in addressing the complexities of multimodal human-robot interactions (HRI). Motivated by this challenge, we introduce a lightweight language-to-vision feedback module that closes the loop between an LLM and the vision encoder in VLMs. The module projects image-token hidden states through a gated Multi-Layer Perceptron (MLP) back into the encoder input, prompting a second pass that reinterprets the scene under text context. We evaluate this approach on three robotics-centred tasks: navigation in a simulated environment (Habitat), sequential scene description (Mementos-Robotics), and human-intention recognition (our HRI dataset). Results show that our method improves Qwen 2.5 (7B) by 3.3% (less distance), +0.057 description score, and +2.93% accuracy, with less than 3% extra parameters; Gemma 3 (4B) and LLaVA OV 1.5 (4B) show mixed navigation results but gains +0.111,+0.055 and +10.81%,+4.79% on the latter two tasks. Code is available at https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics

Raisonnement visuel léger pour des robots socialement conscients

Lightweight Visual Reasoning for Socially-Aware Robots

Résumé

Support