CogVLA: Modelo Visão-Linguagem-Ação Alinhado à Cognição via Roteamento e Esparsificação Orientados por Instruções
CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification
August 28, 2025
Autores: Wei Li, Renshan Zhang, Rui Shao, Jie He, Liqiang Nie
cs.AI
Resumo
Modelos recentes de Visão-Linguagem-Ação (VLA) construídos sobre Modelos de Visão-Linguagem (VLMs) pré-treinados exigem extenso pós-treinamento, resultando em um alto custo computacional que limita a escalabilidade e a implantação. Propomos o CogVLA, uma estrutura de Visão-Linguagem-Ação Alinhada à Cognição que aproveita o roteamento e a esparsificação orientados por instruções para melhorar tanto a eficiência quanto o desempenho. O CogVLA se inspira na coordenação multimodal humana e introduz uma arquitetura progressiva de 3 estágios. 1) O Roteamento de Agregação Baseado em Encoder-FiLM (EFA-Routing) injeta informações de instruções no codificador de visão para agregar e comprimir seletivamente tokens visuais de fluxo duplo, formando uma representação latente consciente das instruções. 2) Com base nessa codificação visual compacta, o Roteamento de Poda Baseado em LLM-FiLM (LFP-Routing) introduz a intenção de ação no modelo de linguagem ao podar tokens visualmente fundamentados irrelevantes para as instruções, alcançando assim esparsidade em nível de token. 3) Para garantir que as entradas de percepção comprimidas ainda possam suportar a geração de ações precisas e coerentes, introduzimos a Atenção Acoplada V-L-A (CAtten), que combina a atenção causal visão-linguagem com a decodificação paralela bidirecional de ações. Experimentos extensivos no benchmark LIBERO e em tarefas robóticas do mundo real demonstram que o CogVLA alcança desempenho de ponta com taxas de sucesso de 97,4% e 70,0%, respectivamente, enquanto reduz os custos de treinamento em 2,5 vezes e diminui a latência de inferência em 2,8 vezes em comparação com o OpenVLA. O CogVLA é de código aberto e está disponível publicamente em https://github.com/JiuTian-VL/CogVLA.
English
Recent Vision-Language-Action (VLA) models built on pre-trained
Vision-Language Models (VLMs) require extensive post-training, resulting in
high computational overhead that limits scalability and deployment.We propose
CogVLA, a Cognition-Aligned Vision-Language-Action framework that leverages
instruction-driven routing and sparsification to improve both efficiency and
performance. CogVLA draws inspiration from human multimodal coordination and
introduces a 3-stage progressive architecture. 1) Encoder-FiLM based
Aggregation Routing (EFA-Routing) injects instruction information into the
vision encoder to selectively aggregate and compress dual-stream visual tokens,
forming a instruction-aware latent representation. 2) Building upon this
compact visual encoding, LLM-FiLM based Pruning Routing (LFP-Routing)
introduces action intent into the language model by pruning
instruction-irrelevant visually grounded tokens, thereby achieving token-level
sparsity. 3) To ensure that compressed perception inputs can still support
accurate and coherent action generation, we introduce V-L-A Coupled Attention
(CAtten), which combines causal vision-language attention with bidirectional
action parallel decoding. Extensive experiments on the LIBERO benchmark and
real-world robotic tasks demonstrate that CogVLA achieves state-of-the-art
performance with success rates of 97.4% and 70.0%, respectively, while reducing
training costs by 2.5-fold and decreasing inference latency by 2.8-fold
compared to OpenVLA. CogVLA is open-sourced and publicly available at
https://github.com/JiuTian-VL/CogVLA.