LoHoVLA: Um Modelo Unificado de Visão-Linguagem-Ação para Tarefas Corporificadas de Longo Horizonte
LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks
May 31, 2025
Autores: Yi Yang, Jiaxuan Sun, Siqi Kou, Yihan Wang, Zhijie Deng
cs.AI
Resumo
Agentes corporificados no mundo real enfrentam tarefas de longo horizonte, caracterizadas por objetivos de alto nível que exigem soluções em múltiplas etapas, além de ações isoladas. Para navegar com sucesso por essas tarefas, é necessário tanto o planejamento de alto nível (ou seja, decompor objetivos em sub-tarefas) quanto o controle de movimento de baixo nível (ou seja, gerar ações precisas do robô). Embora os modelos existentes de visão, linguagem e ação (VLA) e as arquiteturas hierárquicas ofereçam potencial para tarefas corporificadas, os primeiros frequentemente falham no planejamento, e os últimos podem sofrer com problemas de coordenação, ambos prejudicando o desempenho. Introduzimos um novo framework VLA unificado para tarefas de longo horizonte, denominado LoHoVLA, para superar essas limitações. O LoHoVLA aproveita um grande modelo de visão e linguagem (VLM) pré-treinado como base para gerar conjuntamente tokens de linguagem e ação para a geração de sub-tarefas e a previsão de ações do robô, respectivamente. Essa representação compartilhada promove uma melhor generalização entre tarefas. Além disso, o LoHoVLA adota um mecanismo de controle hierárquico em malha fechada para mitigar erros originados tanto do planejamento de alto nível quanto do controle de baixo nível. Para treinar o LoHoVLA, introduzimos o LoHoSet, um conjunto de dados construído no simulador Ravens, contendo 20 tarefas de longo horizonte, cada uma com 1.000 demonstrações especializadas compostas por observações visuais, objetivos linguísticos, sub-tarefas e ações do robô. Os resultados experimentais mostram que o LoHoVLA supera significativamente tanto as abordagens hierárquicas quanto os modelos VLA padrão em tarefas corporificadas de longo horizonte no simulador Ravens. Esses achados destacam a promessa de arquiteturas unificadas para avançar a inteligência corporificada generalizável.
English
Real-world embodied agents face long-horizon tasks, characterized by
high-level goals demanding multi-step solutions beyond single actions.
Successfully navigating these requires both high-level task planning (i.e.,
decomposing goals into sub-tasks) and low-level motion control (i.e.,
generating precise robot actions). While existing vision language action (VLA)
models and hierarchical architectures offer potential in embodied tasks, the
former often falter in planning, and the latter can suffer from coordination
issues, both hampering performance. We introduce a new unified VLA framework
for long-horizon tasks, dubbed LoHoVLA, to overcome these limitations. LoHoVLA
leverages a large pretrained vision language model (VLM) as the backbone to
jointly generate language and action tokens for sub-task generation and robot
action prediction, respectively. This shared representation promotes better
generalization across tasks. Additionally, LoHoVLA embraces a hierarchical
closed-loop control mechanism to mitigate errors originating from both
high-level planning and low-level control. To train LoHoVLA, we introduce
LoHoSet, a dataset built on the Ravens simulator, containing 20 long-horizon
tasks, each with 1,000 expert demonstrations composed of visual observations,
linguistic goals, sub-tasks, and robot actions. Experimental results show that
LoHoVLA significantly surpasses both hierarchical and standard VLA approaches
on long-horizon embodied tasks in the Ravens simulator. These findings
underscore the promise of unified architectures for advancing generalizable
embodied intelligence.