ChatPaper.aiChatPaper

Shallow-π : Distillation de connaissances pour les VLA basées sur les flux

Shallow-π: Knowledge Distillation for Flow-based VLAs

January 28, 2026
papers.authors: Boseong Jeon, Yunho Choi, Taehan Kim
cs.AI

papers.abstract

La demande croissante de déploiement robotique en temps réel nécessite une inférence rapide et sur périphérique pour les modèles vision-langage-action (VLA). Dans la littérature VLA, l'efficacité a été largement étudiée au niveau des tokens, comme l'élagage de tokens visuels. En revanche, la réduction systématique des couches de transformers a reçu une attention limitée et, à notre connaissance, n'a pas été explorée pour les modèles VLA basés sur les flux sous distillation de connaissances. Dans ce travail, nous proposons Shallow-pi, un cadre de distillation de connaissances structuré qui réduit drastiquement la profondeur des transformers tant pour le backbone VLM que pour la tête d'action basée sur les flux, compressant le modèle de 18 à 6 couches. Shallow-pi réalise une inférence plus de deux fois plus rapide avec une baisse absolue de moins d'un pourcent du taux de réussite sur les benchmarks de manipulation standard, établissant ainsi des performances de pointe parmi les modèles VLA réduits. Surtout, nous validons notre approche par des expérimentations en conditions réelles à l'échelle industrielle sur Jetson Orin et Jetson Thor, à travers plusieurs plateformes robotiques, y compris des systèmes humanoïdes, dans des scénarios de manipulation complexes et dynamiques.
English
The growing demand for real-time robotic deployment necessitates fast and on-device inference for vision-language-action (VLA) models. Within the VLA literature, efficiency has been extensively studied at the token level, such as visual token pruning. In contrast, systematic transformer layer reduction has received limited attention and, to the best of our knowledge, has not been explored for flow-based VLA models under knowledge distillation. In this work, we propose Shallow-pi, a principled knowledge distillation framework that aggressively reduces the transformer depth of both the VLM backbone and the flow-based action head, compressing the model from 18 to 6 layers. Shallow-pi achieves over two times faster inference with less than one percent absolute drop in success rate on standard manipulation benchmarks, establishing state-of-the-art performance among reduced VLA models. Crucially, we validate our approach through industrial-scale real-world experiments on Jetson Orin and Jetson Thor across multiple robot platforms, including humanoid systems, in complex and dynamic manipulation scenarios.
PDF11January 30, 2026