Shallow-π: Дистилляция знаний для потоковых визуально-языковых моделей
Shallow-π: Knowledge Distillation for Flow-based VLAs
January 28, 2026
Авторы: Boseong Jeon, Yunho Choi, Taehan Kim
cs.AI
Аннотация
Растущая потребность в развертывании робототехнических систем реального времени требует быстрого и выполняемого на устройстве вывода для моделей «зрение-язык-действие» (VLA). В литературе по VLA эффективность широко изучалась на уровне токенов, например, путем прореживания визуальных токенов. В отличие от этого, систематическое сокращение количества трансформаторных слоев получило ограниченное внимание и, насколько нам известно, не исследовалось для потоковых VLA-моделей в контексте дистилляции знаний. В данной работе мы предлагаем Shallow-pi — принципиальную структуру дистилляции знаний, которая агрессивно сокращает глубину трансформатора как в базовой VLM-архитектуре, так и в потоковом модуле действий, сжимая модель с 18 до 6 слоев. Shallow-pi обеспечивает более чем двукратное ускорение вывода с падением абсолютной точности менее чем на один процент в стандартных тестах на манипуляцию, устанавливая наилучшие показатели среди сокращенных VLA-моделей. Ключевым моментом является то, что мы проверяем наш подход в ходе экспериментов в промышленных масштабах в реальных условиях на Jetson Orin и Jetson Thor для различных роботизированных платформ, включая гуманоидные системы, в сложных и динамичных сценариях манипулирования.
English
The growing demand for real-time robotic deployment necessitates fast and on-device inference for vision-language-action (VLA) models. Within the VLA literature, efficiency has been extensively studied at the token level, such as visual token pruning. In contrast, systematic transformer layer reduction has received limited attention and, to the best of our knowledge, has not been explored for flow-based VLA models under knowledge distillation. In this work, we propose Shallow-pi, a principled knowledge distillation framework that aggressively reduces the transformer depth of both the VLM backbone and the flow-based action head, compressing the model from 18 to 6 layers. Shallow-pi achieves over two times faster inference with less than one percent absolute drop in success rate on standard manipulation benchmarks, establishing state-of-the-art performance among reduced VLA models. Crucially, we validate our approach through industrial-scale real-world experiments on Jetson Orin and Jetson Thor across multiple robot platforms, including humanoid systems, in complex and dynamic manipulation scenarios.