CogVLA: Ein kognitionsausgerichtetes Vision-Sprache-Handlung-Modell durch instruktionsgesteuertes Routing und Sparsifizierung
CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification
August 28, 2025
papers.authors: Wei Li, Renshan Zhang, Rui Shao, Jie He, Liqiang Nie
cs.AI
papers.abstract
Aktuelle Vision-Language-Action (VLA)-Modelle, die auf vortrainierten Vision-Language Models (VLMs) basieren, erfordern umfangreiches Nachtraining, was zu einem hohen Rechenaufwand führt, der die Skalierbarkeit und den Einsatz einschränkt. Wir schlagen CogVLA vor, ein kognitionsorientiertes Vision-Language-Action-Framework, das durch instruktionsgesteuertes Routing und Sparsification sowohl die Effizienz als auch die Leistung verbessert. CogVLA lässt sich von der multimodalen Koordination des Menschen inspirieren und führt eine dreistufige progressive Architektur ein. 1) Encoder-FiLM-basiertes Aggregations-Routing (EFA-Routing) injiziert Instruktionsinformationen in den Vision-Encoder, um duale visuelle Tokens selektiv zu aggregieren und zu komprimieren, wodurch eine instruktionsbewusste latente Repräsentation gebildet wird. 2) Aufbauend auf dieser kompakten visuellen Kodierung führt LLM-FiLM-basiertes Pruning-Routing (LFP-Routing) die Handlungsabsicht in das Sprachmodell ein, indem instruktionsirrelevante visuell verankerte Tokens beschnitten werden, wodurch Token-Level-Sparsity erreicht wird. 3) Um sicherzustellen, dass komprimierte Wahrnehmungseingaben dennoch eine präzise und kohärente Handlungsgenerierung unterstützen können, führen wir V-L-A-gekoppelte Aufmerksamkeit (CAtten) ein, die kausale Vision-Language-Aufmerksamkeit mit bidirektionaler paralleler Handlungsdekodierung kombiniert. Umfangreiche Experimente auf dem LIBERO-Benchmark und realen Robotikaufgaben zeigen, dass CogVLA mit Erfolgsquoten von 97,4 % bzw. 70,0 % Spitzenleistungen erzielt, während die Trainingskosten um das 2,5-fache reduziert und die Inferenzlatenz im Vergleich zu OpenVLA um das 2,8-fache verringert werden. CogVLA ist quelloffen und öffentlich unter https://github.com/JiuTian-VL/CogVLA verfügbar.
English
Recent Vision-Language-Action (VLA) models built on pre-trained
Vision-Language Models (VLMs) require extensive post-training, resulting in
high computational overhead that limits scalability and deployment.We propose
CogVLA, a Cognition-Aligned Vision-Language-Action framework that leverages
instruction-driven routing and sparsification to improve both efficiency and
performance. CogVLA draws inspiration from human multimodal coordination and
introduces a 3-stage progressive architecture. 1) Encoder-FiLM based
Aggregation Routing (EFA-Routing) injects instruction information into the
vision encoder to selectively aggregate and compress dual-stream visual tokens,
forming a instruction-aware latent representation. 2) Building upon this
compact visual encoding, LLM-FiLM based Pruning Routing (LFP-Routing)
introduces action intent into the language model by pruning
instruction-irrelevant visually grounded tokens, thereby achieving token-level
sparsity. 3) To ensure that compressed perception inputs can still support
accurate and coherent action generation, we introduce V-L-A Coupled Attention
(CAtten), which combines causal vision-language attention with bidirectional
action parallel decoding. Extensive experiments on the LIBERO benchmark and
real-world robotic tasks demonstrate that CogVLA achieves state-of-the-art
performance with success rates of 97.4% and 70.0%, respectively, while reducing
training costs by 2.5-fold and decreasing inference latency by 2.8-fold
compared to OpenVLA. CogVLA is open-sourced and publicly available at
https://github.com/JiuTian-VL/CogVLA.