Shallow-π: Distilación de Conocimiento para VLAs Basadas en Flujo
Shallow-π: Knowledge Distillation for Flow-based VLAs
January 28, 2026
Autores: Boseong Jeon, Yunho Choi, Taehan Kim
cs.AI
Resumen
La creciente demanda de despliegue robótico en tiempo real requiere inferencia rápida y en el dispositivo para los modelos visión-lenguaje-acción (VLA). En la literatura sobre VLA, la eficiencia se ha estudiado extensamente a nivel de tokens, como la poda de tokens visuales. En contraste, la reducción sistemática de capas del transformador ha recibido una atención limitada y, hasta donde sabemos, no se ha explorado para modelos VLA basados en flujos bajo destilación de conocimiento. En este trabajo, proponemos Shallow-pi, un marco de destilación de conocimiento fundamentado que reduce agresivamente la profundidad del transformador tanto en el *backbone* VLM como en la cabeza de acción basada en flujos, comprimiendo el modelo de 18 a 6 capas. Shallow-pi logra una inferencia más de dos veces más rápida con una caída de menos del uno por ciento en la tasa de éxito en *benchmarks* estándar de manipulación, estableciendo un rendimiento de vanguardia entre los modelos VLA reducidos. Crucialmente, validamos nuestro enfoque mediante experimentos en el mundo real a escala industrial en Jetson Orin y Jetson Thor a través de múltiples plataformas robóticas, incluidos sistemas humanoides, en escenarios de manipulación complejos y dinámicos.
English
The growing demand for real-time robotic deployment necessitates fast and on-device inference for vision-language-action (VLA) models. Within the VLA literature, efficiency has been extensively studied at the token level, such as visual token pruning. In contrast, systematic transformer layer reduction has received limited attention and, to the best of our knowledge, has not been explored for flow-based VLA models under knowledge distillation. In this work, we propose Shallow-pi, a principled knowledge distillation framework that aggressively reduces the transformer depth of both the VLM backbone and the flow-based action head, compressing the model from 18 to 6 layers. Shallow-pi achieves over two times faster inference with less than one percent absolute drop in success rate on standard manipulation benchmarks, establishing state-of-the-art performance among reduced VLA models. Crucially, we validate our approach through industrial-scale real-world experiments on Jetson Orin and Jetson Thor across multiple robot platforms, including humanoid systems, in complex and dynamic manipulation scenarios.