EvoVLA: Modelo Visão-Linguagem-Ação de Auto-Evolução

Resumo

A manipulação robótica de longo horizonte continua a ser um desafio para os modelos Visão-Linguagem-Ação (VLA), apesar dos progressos recentes na generalização de *zero-shot* e na transferência do mundo simulado para o real. Os atuais modelos VLA padecem de alucinação de estágios, na qual os agentes exploram sinais de avaliação grosseiros para criar atalhos em tarefas de múltiplas etapas, reportando alto progresso sem as concluir verdadeiramente. Apresentamos o EvoVLA, uma estrutura VLA auto supervisionada que resolve esta questão através de três componentes complementares: a Recompensa Alinhada por Estágios (SAR), que usa aprendizagem contrastiva tripla com *hard negatives* gerados pelo Gemini para evitar atalhos visuais; a Exploração de Objetos Baseada em Pose (POE), que ancora a curiosidade na pose relativa objeto-garra em vez de *pixels* brutos; e a Memória de Longo Horizonte, que usa retenção seletiva de contexto e fusão controlada para estabilizar o *shaping* intrínseco durante execuções prolongadas. Avaliações extensivas no Discoverse-L, um *benchmark* de manipulação de longo horizonte com três tarefas multiestágio, mostram que o EvoVLA melhora o sucesso médio das tarefas em 10,2 pontos percentuais em relação à linha de base mais forte (OpenVLA-OFT), atingindo 69,2 por cento. O EvoVLA também atinge uma eficiência amostral uma vez e meia melhor e reduz a alucinação de estágios de 38,5 por cento para 14,8 por cento. A implantação no mundo real em robôs físicos atinge uma taxa média de sucesso de 54,6 por cento em quatro tarefas de manipulação, superando o OpenVLA-OFT em 11 pontos, demonstrando uma transferência simulado-real eficaz e uma forte generalização. Código: https://github.com/AIGeeksGroup/EvoVLA. Website: https://aigeeksgroup.github.io/EvoVLA.

English

Long-horizon robotic manipulation remains challenging for Vision-Language-Action (VLA) models despite recent progress in zero-shot generalization and simulation-to-real-world transfer. Current VLA models suffer from stage hallucination, where agents exploit coarse evaluation signals to shortcut multi-step tasks, reporting high progress without truly completing them. We present EvoVLA, a self-supervised VLA framework that addresses this issue through three complementary components: Stage-Aligned Reward (SAR), which uses triplet contrastive learning with Gemini-generated hard negatives to prevent visual shortcuts; Pose-Based Object Exploration (POE), which grounds curiosity in relative object-gripper pose instead of raw pixels; and Long-Horizon Memory, which uses selective context retention and gated fusion to stabilize intrinsic shaping during extended rollouts. Extensive evaluations on Discoverse-L, a long-horizon manipulation benchmark with three multi-stage tasks, show that EvoVLA improves average task success by 10.2 percentage points over the strongest baseline (OpenVLA-OFT), reaching 69.2 percent. EvoVLA also achieves one-and-a-half times better sample efficiency and reduces stage hallucination from 38.5 percent to 14.8 percent. Real-world deployment on physical robots reaches an average success rate of 54.6 percent across four manipulation tasks, outperforming OpenVLA-OFT by 11 points, demonstrating effective sim-to-real transfer and strong generalization. Code: https://github.com/AIGeeksGroup/EvoVLA. Website: https://aigeeksgroup.github.io/EvoVLA.

EvoVLA: Modelo Visão-Linguagem-Ação de Auto-Evolução

EvoVLA: Self-Evolving Vision-Language-Action Model

Resumo

Support