ChatPaper.aiChatPaper

SwiftVLA: Раскрытие пространственно-временной динамики для облегченных моделей VLA с минимальными накладными расходами

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minimal Overhead

November 30, 2025
Авторы: Chaojun Ni, Cheng Chen, Xiaofeng Wang, Zheng Zhu, Wenzhao Zheng, Boyuan Wang, Tianrun Chen, Guosheng Zhao, Haoyun Li, Zhehao Dong, Qiang Zhang, Yun Ye, Yang Wang, Guan Huang, Wenjun Mei
cs.AI

Аннотация

Модели "Vision-Language-Action" (VLA), построенные на предварительно обученных моделях "Vision-Language" (VLM), демонстрируют значительный потенциал, но их практическое применение ограничено из-за большого количества параметров. Для решения этой проблемы изучалось использование облегченных VLM, однако это приводит к ухудшению пространственно-временного анализа. Хотя некоторые методы предлагают использовать дополнительные 3D-данные для улучшения ситуации, они обычно полагаются на крупные VLM для объединения 3D и 2D входных данных и все равно не обеспечивают полноценного временного понимания. Поэтому мы предлагаем SwiftVLA — архитектуру, которая наделяет компактную модель пониманием 4D-данных, сохраняя при этом эффективность проектирования. В частности, наш подход включает предварительно обученный 4D-трансформер визуальной геометрии с временным кэшем, который извлекает 4D-признаки из 2D-изображений. Затем, чтобы расширить возможности VLM по использованию как 2D-изображений, так и 4D-признаков, мы вводим Fusion Tokens — набор обучаемых токенов, которые тренируются с целью предсказания будущего состояния для генерации унифицированных представлений, используемых при создании действий. Наконец, мы предлагаем стратегию "маскирования и восстановления", которая маскирует 4D-входы для VLM и обучает модель VLA их восстанавливать. Это позволяет VLM освоить эффективные 4D-представления и дает возможность отключить 4D-ветку на этапе inference с минимальной потерей производительности. Эксперименты в реальных и симулированных средах показывают, что SwiftVLA превосходит облегченные базовые модели и конкурирует с VLA, которые до 7 раз крупнее, достигая сопоставимой производительности на периферийных устройствах при ускорении в 18 раз и сокращении объема используемой памяти в 12 раз.
English
Vision-Language-Action (VLA) models built on pretrained Vision-Language Models (VLMs) show strong potential but are limited in practicality due to their large parameter counts. To mitigate this issue, using a lightweight VLM has been explored, but it compromises spatiotemporal reasoning. Although some methods suggest that incorporating additional 3D inputs can help, they usually rely on large VLMs to fuse 3D and 2D inputs and still lack temporal understanding. Therefore, we propose SwiftVLA, an architecture that enhances a compact model with 4D understanding while preserving design efficiency. Specifically, our approach features a pretrained 4D visual geometry transformer with a temporal cache that extracts 4D features from 2D images. Then, to enhance the VLM's ability to exploit both 2D images and 4D features, we introduce Fusion Tokens, a set of learnable tokens trained with a future prediction objective to generate unified representations for action generation. Finally, we introduce a mask-and-reconstruct strategy that masks 4D inputs to the VLM and trains the VLA to reconstruct them, enabling the VLM to learn effective 4D representations and allowing the 4D branch to be dropped at inference with minimal performance loss. Experiments in real and simulated environments show that SwiftVLA outperforms lightweight baselines and rivals VLAs up to 7 times larger, achieving comparable performance on edge devices while being 18 times faster and reducing memory footprint by 12 times.
PDF31December 4, 2025