CogVLA : Modèle Vision-Langue-Action Aligné sur la Cognition via Routage et Sparsification Pilotés par Instructions

papers.abstract

Les modèles récents Vision-Langage-Action (VLA) construits sur des modèles Vision-Langage (VLM) pré-entraînés nécessitent un post-entraînement intensif, entraînant un surcoût computationnel important qui limite leur évolutivité et leur déploiement. Nous proposons CogVLA, un cadre Vision-Langage-Action aligné sur la cognition qui exploite le routage piloté par instructions et la sparsification pour améliorer à la fois l'efficacité et les performances. CogVLA s'inspire de la coordination multimodale humaine et introduit une architecture progressive en 3 étapes. 1) Le routage d'agrégation basé sur Encoder-FiLM (EFA-Routing) injecte des informations d'instructions dans l'encodeur visuel pour agréger et compresser de manière sélective les tokens visuels en double flux, formant ainsi une représentation latente sensible aux instructions. 2) S'appuyant sur cet encodage visuel compact, le routage d'élagage basé sur LLM-FiLM (LFP-Routing) introduit l'intention d'action dans le modèle de langage en élaguant les tokens visuels non pertinents pour les instructions, atteignant ainsi une sparsité au niveau des tokens. 3) Pour garantir que les entrées de perception compressées puissent toujours soutenir une génération d'actions précise et cohérente, nous introduisons l'attention couplée V-L-A (CAtten), qui combine l'attention causale vision-langage avec un décodage parallèle bidirectionnel des actions. Des expériences approfondies sur le benchmark LIBERO et des tâches robotiques réelles démontrent que CogVLA atteint des performances de pointe avec des taux de réussite de 97,4 % et 70,0 %, respectivement, tout en réduisant les coûts d'entraînement par un facteur de 2,5 et en diminuant la latence d'inférence par un facteur de 2,8 par rapport à OpenVLA. CogVLA est open-source et disponible publiquement à l'adresse https://github.com/JiuTian-VL/CogVLA.

English

Recent Vision-Language-Action (VLA) models built on pre-trained Vision-Language Models (VLMs) require extensive post-training, resulting in high computational overhead that limits scalability and deployment.We propose CogVLA, a Cognition-Aligned Vision-Language-Action framework that leverages instruction-driven routing and sparsification to improve both efficiency and performance. CogVLA draws inspiration from human multimodal coordination and introduces a 3-stage progressive architecture. 1) Encoder-FiLM based Aggregation Routing (EFA-Routing) injects instruction information into the vision encoder to selectively aggregate and compress dual-stream visual tokens, forming a instruction-aware latent representation. 2) Building upon this compact visual encoding, LLM-FiLM based Pruning Routing (LFP-Routing) introduces action intent into the language model by pruning instruction-irrelevant visually grounded tokens, thereby achieving token-level sparsity. 3) To ensure that compressed perception inputs can still support accurate and coherent action generation, we introduce V-L-A Coupled Attention (CAtten), which combines causal vision-language attention with bidirectional action parallel decoding. Extensive experiments on the LIBERO benchmark and real-world robotic tasks demonstrate that CogVLA achieves state-of-the-art performance with success rates of 97.4% and 70.0%, respectively, while reducing training costs by 2.5-fold and decreasing inference latency by 2.8-fold compared to OpenVLA. CogVLA is open-sourced and publicly available at https://github.com/JiuTian-VL/CogVLA.

CogVLA : Modèle Vision-Langue-Action Aligné sur la Cognition via Routage et Sparsification Pilotés par Instructions

CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

papers.abstract

Support