ChatPaper.aiChatPaper

CogVLA: Ein kognitionsausgerichtetes Vision-Sprache-Handlung-Modell durch instruktionsgesteuertes Routing und Sparsifizierung

CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

August 28, 2025
papers.authors: Wei Li, Renshan Zhang, Rui Shao, Jie He, Liqiang Nie
cs.AI

papers.abstract

Aktuelle Vision-Language-Action (VLA)-Modelle, die auf vortrainierten Vision-Language Models (VLMs) basieren, erfordern umfangreiches Nachtraining, was zu einem hohen Rechenaufwand führt, der die Skalierbarkeit und den Einsatz einschränkt. Wir schlagen CogVLA vor, ein kognitionsorientiertes Vision-Language-Action-Framework, das durch instruktionsgesteuertes Routing und Sparsification sowohl die Effizienz als auch die Leistung verbessert. CogVLA lässt sich von der multimodalen Koordination des Menschen inspirieren und führt eine dreistufige progressive Architektur ein. 1) Encoder-FiLM-basiertes Aggregations-Routing (EFA-Routing) injiziert Instruktionsinformationen in den Vision-Encoder, um duale visuelle Tokens selektiv zu aggregieren und zu komprimieren, wodurch eine instruktionsbewusste latente Repräsentation gebildet wird. 2) Aufbauend auf dieser kompakten visuellen Kodierung führt LLM-FiLM-basiertes Pruning-Routing (LFP-Routing) die Handlungsabsicht in das Sprachmodell ein, indem instruktionsirrelevante visuell verankerte Tokens beschnitten werden, wodurch Token-Level-Sparsity erreicht wird. 3) Um sicherzustellen, dass komprimierte Wahrnehmungseingaben dennoch eine präzise und kohärente Handlungsgenerierung unterstützen können, führen wir V-L-A-gekoppelte Aufmerksamkeit (CAtten) ein, die kausale Vision-Language-Aufmerksamkeit mit bidirektionaler paralleler Handlungsdekodierung kombiniert. Umfangreiche Experimente auf dem LIBERO-Benchmark und realen Robotikaufgaben zeigen, dass CogVLA mit Erfolgsquoten von 97,4 % bzw. 70,0 % Spitzenleistungen erzielt, während die Trainingskosten um das 2,5-fache reduziert und die Inferenzlatenz im Vergleich zu OpenVLA um das 2,8-fache verringert werden. CogVLA ist quelloffen und öffentlich unter https://github.com/JiuTian-VL/CogVLA verfügbar.
English
Recent Vision-Language-Action (VLA) models built on pre-trained Vision-Language Models (VLMs) require extensive post-training, resulting in high computational overhead that limits scalability and deployment.We propose CogVLA, a Cognition-Aligned Vision-Language-Action framework that leverages instruction-driven routing and sparsification to improve both efficiency and performance. CogVLA draws inspiration from human multimodal coordination and introduces a 3-stage progressive architecture. 1) Encoder-FiLM based Aggregation Routing (EFA-Routing) injects instruction information into the vision encoder to selectively aggregate and compress dual-stream visual tokens, forming a instruction-aware latent representation. 2) Building upon this compact visual encoding, LLM-FiLM based Pruning Routing (LFP-Routing) introduces action intent into the language model by pruning instruction-irrelevant visually grounded tokens, thereby achieving token-level sparsity. 3) To ensure that compressed perception inputs can still support accurate and coherent action generation, we introduce V-L-A Coupled Attention (CAtten), which combines causal vision-language attention with bidirectional action parallel decoding. Extensive experiments on the LIBERO benchmark and real-world robotic tasks demonstrate that CogVLA achieves state-of-the-art performance with success rates of 97.4% and 70.0%, respectively, while reducing training costs by 2.5-fold and decreasing inference latency by 2.8-fold compared to OpenVLA. CogVLA is open-sourced and publicly available at https://github.com/JiuTian-VL/CogVLA.
PDF72August 29, 2025