CogVLA : Modèle Vision-Langue-Action Aligné sur la Cognition via Routage et Sparsification Pilotés par Instructions
CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification
August 28, 2025
papers.authors: Wei Li, Renshan Zhang, Rui Shao, Jie He, Liqiang Nie
cs.AI
papers.abstract
Les modèles récents Vision-Langage-Action (VLA) construits sur des modèles Vision-Langage (VLM) pré-entraînés nécessitent un post-entraînement intensif, entraînant un surcoût computationnel important qui limite leur évolutivité et leur déploiement. Nous proposons CogVLA, un cadre Vision-Langage-Action aligné sur la cognition qui exploite le routage piloté par instructions et la sparsification pour améliorer à la fois l'efficacité et les performances. CogVLA s'inspire de la coordination multimodale humaine et introduit une architecture progressive en 3 étapes. 1) Le routage d'agrégation basé sur Encoder-FiLM (EFA-Routing) injecte des informations d'instructions dans l'encodeur visuel pour agréger et compresser de manière sélective les tokens visuels en double flux, formant ainsi une représentation latente sensible aux instructions. 2) S'appuyant sur cet encodage visuel compact, le routage d'élagage basé sur LLM-FiLM (LFP-Routing) introduit l'intention d'action dans le modèle de langage en élaguant les tokens visuels non pertinents pour les instructions, atteignant ainsi une sparsité au niveau des tokens. 3) Pour garantir que les entrées de perception compressées puissent toujours soutenir une génération d'actions précise et cohérente, nous introduisons l'attention couplée V-L-A (CAtten), qui combine l'attention causale vision-langage avec un décodage parallèle bidirectionnel des actions. Des expériences approfondies sur le benchmark LIBERO et des tâches robotiques réelles démontrent que CogVLA atteint des performances de pointe avec des taux de réussite de 97,4 % et 70,0 %, respectivement, tout en réduisant les coûts d'entraînement par un facteur de 2,5 et en diminuant la latence d'inférence par un facteur de 2,8 par rapport à OpenVLA. CogVLA est open-source et disponible publiquement à l'adresse https://github.com/JiuTian-VL/CogVLA.
English
Recent Vision-Language-Action (VLA) models built on pre-trained
Vision-Language Models (VLMs) require extensive post-training, resulting in
high computational overhead that limits scalability and deployment.We propose
CogVLA, a Cognition-Aligned Vision-Language-Action framework that leverages
instruction-driven routing and sparsification to improve both efficiency and
performance. CogVLA draws inspiration from human multimodal coordination and
introduces a 3-stage progressive architecture. 1) Encoder-FiLM based
Aggregation Routing (EFA-Routing) injects instruction information into the
vision encoder to selectively aggregate and compress dual-stream visual tokens,
forming a instruction-aware latent representation. 2) Building upon this
compact visual encoding, LLM-FiLM based Pruning Routing (LFP-Routing)
introduces action intent into the language model by pruning
instruction-irrelevant visually grounded tokens, thereby achieving token-level
sparsity. 3) To ensure that compressed perception inputs can still support
accurate and coherent action generation, we introduce V-L-A Coupled Attention
(CAtten), which combines causal vision-language attention with bidirectional
action parallel decoding. Extensive experiments on the LIBERO benchmark and
real-world robotic tasks demonstrate that CogVLA achieves state-of-the-art
performance with success rates of 97.4% and 70.0%, respectively, while reducing
training costs by 2.5-fold and decreasing inference latency by 2.8-fold
compared to OpenVLA. CogVLA is open-sourced and publicly available at
https://github.com/JiuTian-VL/CogVLA.