ChatPaper.aiChatPaper

CogVLA: Когнитивно-согласованная модель "Видение-Язык-Действие" через маршрутизацию и разрежение, управляемые инструкциями

CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

August 28, 2025
Авторы: Wei Li, Renshan Zhang, Rui Shao, Jie He, Liqiang Nie
cs.AI

Аннотация

Недавние модели Vision-Language-Action (VLA), построенные на предварительно обученных Vision-Language Models (VLMs), требуют обширного пост-обучения, что приводит к высоким вычислительным затратам, ограничивающим масштабируемость и внедрение. Мы предлагаем CogVLA, когнитивно-согласованную структуру Vision-Language-Action, которая использует маршрутизацию на основе инструкций и разрежение для повышения как эффективности, так и производительности. CogVLA вдохновляется мультимодальной координацией человека и представляет трехэтапную прогрессивную архитектуру. 1) Маршрутизация на основе агрегации Encoder-FiLM (EFA-Routing) внедряет информацию об инструкциях в визуальный кодировщик для избирательной агрегации и сжатия двухпотоковых визуальных токенов, формируя латентное представление, учитывающее инструкции. 2) На основе этого компактного визуального кодирования маршрутизация на основе обрезки LLM-FiLM (LFP-Routing) вводит намерение действия в языковую модель, удаляя визуально закрепленные токены, не относящиеся к инструкциям, тем самым достигая разрежения на уровне токенов. 3) Чтобы гарантировать, что сжатые входные данные восприятия все еще могут поддерживать точное и согласованное генерацию действий, мы вводим V-L-A Coupled Attention (CAtten), который объединяет причинно-следственное внимание vision-language с двунаправленным параллельным декодированием действий. Экстенсивные эксперименты на бенчмарке LIBERO и реальных роботизированных задачах демонстрируют, что CogVLA достигает наилучших результатов с показателями успеха 97.4% и 70.0% соответственно, при этом снижая затраты на обучение в 2.5 раза и уменьшая задержку вывода в 2.8 раза по сравнению с OpenVLA. CogVLA является открытым исходным кодом и доступен по адресу https://github.com/JiuTian-VL/CogVLA.
English
Recent Vision-Language-Action (VLA) models built on pre-trained Vision-Language Models (VLMs) require extensive post-training, resulting in high computational overhead that limits scalability and deployment.We propose CogVLA, a Cognition-Aligned Vision-Language-Action framework that leverages instruction-driven routing and sparsification to improve both efficiency and performance. CogVLA draws inspiration from human multimodal coordination and introduces a 3-stage progressive architecture. 1) Encoder-FiLM based Aggregation Routing (EFA-Routing) injects instruction information into the vision encoder to selectively aggregate and compress dual-stream visual tokens, forming a instruction-aware latent representation. 2) Building upon this compact visual encoding, LLM-FiLM based Pruning Routing (LFP-Routing) introduces action intent into the language model by pruning instruction-irrelevant visually grounded tokens, thereby achieving token-level sparsity. 3) To ensure that compressed perception inputs can still support accurate and coherent action generation, we introduce V-L-A Coupled Attention (CAtten), which combines causal vision-language attention with bidirectional action parallel decoding. Extensive experiments on the LIBERO benchmark and real-world robotic tasks demonstrate that CogVLA achieves state-of-the-art performance with success rates of 97.4% and 70.0%, respectively, while reducing training costs by 2.5-fold and decreasing inference latency by 2.8-fold compared to OpenVLA. CogVLA is open-sourced and publicly available at https://github.com/JiuTian-VL/CogVLA.
PDF82August 29, 2025