CogVLA: Modelo de Visión-Lenguaje-Acción Alineado con la Cognición mediante Enrutamiento y Esparcificación Guiados por Instrucciones
CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification
August 28, 2025
Autores: Wei Li, Renshan Zhang, Rui Shao, Jie He, Liqiang Nie
cs.AI
Resumen
Los modelos recientes de Visión-Lenguaje-Acción (VLA) construidos sobre modelos preentrenados de Visión-Lenguaje (VLM) requieren un extenso post-entrenamiento, lo que resulta en un alto costo computacional que limita su escalabilidad y despliegue. Proponemos CogVLA, un marco de Visión-Lenguaje-Acción Alineado con la Cognición que aprovecha el enrutamiento basado en instrucciones y la esparsificación para mejorar tanto la eficiencia como el rendimiento. CogVLA se inspira en la coordinación multimodal humana e introduce una arquitectura progresiva de 3 etapas. 1) El Enrutamiento de Agregación basado en Encoder-FiLM (EFA-Routing) inyecta información de instrucciones en el codificador visual para agregar y comprimir selectivamente tokens visuales de doble flujo, formando una representación latente consciente de las instrucciones. 2) Sobre esta codificación visual compacta, el Enrutamiento de Poda basado en LLM-FiLM (LFP-Routing) introduce la intención de acción en el modelo de lenguaje podando tokens visuales irrelevantes para las instrucciones, logrando así esparsidad a nivel de token. 3) Para asegurar que las entradas de percepción comprimidas aún puedan soportar una generación de acciones precisa y coherente, introducimos la Atención Acoplada V-L-A (CAtten), que combina la atención causal visión-lenguaje con un decodificación paralela bidireccional de acciones. Experimentos extensos en el benchmark LIBERO y tareas robóticas del mundo real demuestran que CogVLA alcanza un rendimiento de vanguardia con tasas de éxito del 97.4% y 70.0%, respectivamente, mientras reduce los costos de entrenamiento en 2.5 veces y disminuye la latencia de inferencia en 2.8 veces en comparación con OpenVLA. CogVLA es de código abierto y está disponible públicamente en https://github.com/JiuTian-VL/CogVLA.
English
Recent Vision-Language-Action (VLA) models built on pre-trained
Vision-Language Models (VLMs) require extensive post-training, resulting in
high computational overhead that limits scalability and deployment.We propose
CogVLA, a Cognition-Aligned Vision-Language-Action framework that leverages
instruction-driven routing and sparsification to improve both efficiency and
performance. CogVLA draws inspiration from human multimodal coordination and
introduces a 3-stage progressive architecture. 1) Encoder-FiLM based
Aggregation Routing (EFA-Routing) injects instruction information into the
vision encoder to selectively aggregate and compress dual-stream visual tokens,
forming a instruction-aware latent representation. 2) Building upon this
compact visual encoding, LLM-FiLM based Pruning Routing (LFP-Routing)
introduces action intent into the language model by pruning
instruction-irrelevant visually grounded tokens, thereby achieving token-level
sparsity. 3) To ensure that compressed perception inputs can still support
accurate and coherent action generation, we introduce V-L-A Coupled Attention
(CAtten), which combines causal vision-language attention with bidirectional
action parallel decoding. Extensive experiments on the LIBERO benchmark and
real-world robotic tasks demonstrate that CogVLA achieves state-of-the-art
performance with success rates of 97.4% and 70.0%, respectively, while reducing
training costs by 2.5-fold and decreasing inference latency by 2.8-fold
compared to OpenVLA. CogVLA is open-sourced and publicly available at
https://github.com/JiuTian-VL/CogVLA.