LoHoVLA : Un modèle unifié vision-langage-action pour les tâches incarnées à long horizon
LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks
May 31, 2025
papers.authors: Yi Yang, Jiaxuan Sun, Siqi Kou, Yihan Wang, Zhijie Deng
cs.AI
papers.abstract
Les agents incarnés dans le monde réel sont confrontés à des tâches à long terme, caractérisées par des objectifs de haut niveau nécessitant des solutions en plusieurs étapes au-delà d'actions isolées. Pour naviguer avec succès dans ces tâches, il est essentiel de combiner une planification de haut niveau (c'est-à-dire, décomposer les objectifs en sous-tâches) et un contrôle de mouvement de bas niveau (c'est-à-dire, générer des actions robotiques précises). Bien que les modèles vision-langage-action (VLA) existants et les architectures hiérarchiques offrent un potentiel pour les tâches incarnées, les premiers échouent souvent en planification, et les seconds peuvent souffrir de problèmes de coordination, ce qui nuit à la performance. Nous introduisons un nouveau cadre VLA unifié pour les tâches à long terme, nommé LoHoVLA, pour surmonter ces limitations. LoHoVLA s'appuie sur un grand modèle vision-langage (VLM) pré-entraîné comme structure de base pour générer conjointement des tokens de langage et d'action, respectivement pour la génération de sous-tâches et la prédiction d'actions robotiques. Cette représentation partagée favorise une meilleure généralisation entre les tâches. De plus, LoHoVLA intègre un mécanisme de contrôle en boucle fermée hiérarchique pour atténuer les erreurs provenant à la fois de la planification de haut niveau et du contrôle de bas niveau. Pour entraîner LoHoVLA, nous introduisons LoHoSet, un ensemble de données construit sur le simulateur Ravens, contenant 20 tâches à long terme, chacune avec 1 000 démonstrations expertes composées d'observations visuelles, d'objectifs linguistiques, de sous-tâches et d'actions robotiques. Les résultats expérimentaux montrent que LoHoVLA surpasse significativement à la fois les approches hiérarchiques et les modèles VLA standards sur les tâches incarnées à long terme dans le simulateur Ravens. Ces résultats soulignent la promesse des architectures unifiées pour faire progresser l'intelligence incarnée généralisable.
English
Real-world embodied agents face long-horizon tasks, characterized by
high-level goals demanding multi-step solutions beyond single actions.
Successfully navigating these requires both high-level task planning (i.e.,
decomposing goals into sub-tasks) and low-level motion control (i.e.,
generating precise robot actions). While existing vision language action (VLA)
models and hierarchical architectures offer potential in embodied tasks, the
former often falter in planning, and the latter can suffer from coordination
issues, both hampering performance. We introduce a new unified VLA framework
for long-horizon tasks, dubbed LoHoVLA, to overcome these limitations. LoHoVLA
leverages a large pretrained vision language model (VLM) as the backbone to
jointly generate language and action tokens for sub-task generation and robot
action prediction, respectively. This shared representation promotes better
generalization across tasks. Additionally, LoHoVLA embraces a hierarchical
closed-loop control mechanism to mitigate errors originating from both
high-level planning and low-level control. To train LoHoVLA, we introduce
LoHoSet, a dataset built on the Ravens simulator, containing 20 long-horizon
tasks, each with 1,000 expert demonstrations composed of visual observations,
linguistic goals, sub-tasks, and robot actions. Experimental results show that
LoHoVLA significantly surpasses both hierarchical and standard VLA approaches
on long-horizon embodied tasks in the Ravens simulator. These findings
underscore the promise of unified architectures for advancing generalizable
embodied intelligence.