LoHoVLA: Um Modelo Unificado de Visão-Linguagem-Ação para Tarefas Corporificadas de Longo Horizonte

Resumo

Agentes corporificados no mundo real enfrentam tarefas de longo horizonte, caracterizadas por objetivos de alto nível que exigem soluções em múltiplas etapas, além de ações isoladas. Para navegar com sucesso por essas tarefas, é necessário tanto o planejamento de alto nível (ou seja, decompor objetivos em sub-tarefas) quanto o controle de movimento de baixo nível (ou seja, gerar ações precisas do robô). Embora os modelos existentes de visão, linguagem e ação (VLA) e as arquiteturas hierárquicas ofereçam potencial para tarefas corporificadas, os primeiros frequentemente falham no planejamento, e os últimos podem sofrer com problemas de coordenação, ambos prejudicando o desempenho. Introduzimos um novo framework VLA unificado para tarefas de longo horizonte, denominado LoHoVLA, para superar essas limitações. O LoHoVLA aproveita um grande modelo de visão e linguagem (VLM) pré-treinado como base para gerar conjuntamente tokens de linguagem e ação para a geração de sub-tarefas e a previsão de ações do robô, respectivamente. Essa representação compartilhada promove uma melhor generalização entre tarefas. Além disso, o LoHoVLA adota um mecanismo de controle hierárquico em malha fechada para mitigar erros originados tanto do planejamento de alto nível quanto do controle de baixo nível. Para treinar o LoHoVLA, introduzimos o LoHoSet, um conjunto de dados construído no simulador Ravens, contendo 20 tarefas de longo horizonte, cada uma com 1.000 demonstrações especializadas compostas por observações visuais, objetivos linguísticos, sub-tarefas e ações do robô. Os resultados experimentais mostram que o LoHoVLA supera significativamente tanto as abordagens hierárquicas quanto os modelos VLA padrão em tarefas corporificadas de longo horizonte no simulador Ravens. Esses achados destacam a promessa de arquiteturas unificadas para avançar a inteligência corporificada generalizável.

English

Real-world embodied agents face long-horizon tasks, characterized by high-level goals demanding multi-step solutions beyond single actions. Successfully navigating these requires both high-level task planning (i.e., decomposing goals into sub-tasks) and low-level motion control (i.e., generating precise robot actions). While existing vision language action (VLA) models and hierarchical architectures offer potential in embodied tasks, the former often falter in planning, and the latter can suffer from coordination issues, both hampering performance. We introduce a new unified VLA framework for long-horizon tasks, dubbed LoHoVLA, to overcome these limitations. LoHoVLA leverages a large pretrained vision language model (VLM) as the backbone to jointly generate language and action tokens for sub-task generation and robot action prediction, respectively. This shared representation promotes better generalization across tasks. Additionally, LoHoVLA embraces a hierarchical closed-loop control mechanism to mitigate errors originating from both high-level planning and low-level control. To train LoHoVLA, we introduce LoHoSet, a dataset built on the Ravens simulator, containing 20 long-horizon tasks, each with 1,000 expert demonstrations composed of visual observations, linguistic goals, sub-tasks, and robot actions. Experimental results show that LoHoVLA significantly surpasses both hierarchical and standard VLA approaches on long-horizon embodied tasks in the Ravens simulator. These findings underscore the promise of unified architectures for advancing generalizable embodied intelligence.

LoHoVLA: Um Modelo Unificado de Visão-Linguagem-Ação para Tarefas Corporificadas de Longo Horizonte

LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks

Resumo

Support