Shallow-π: Wissensdistillation für flussbasierte visuell-sprachliche Architekturen
Shallow-π: Knowledge Distillation for Flow-based VLAs
January 28, 2026
papers.authors: Boseong Jeon, Yunho Choi, Taehan Kim
cs.AI
papers.abstract
Der wachsende Bedarf an Echtzeit-Robotereinsätzen erfordert schnelle und geräteinternen Inferenz für Vision-Language-Action (VLA)-Modelle. In der VLA-Literatur wurde Effizienz ausführlich auf Token-Ebene untersucht, beispielsweise durch Reduzierung visueller Tokens. Im Gegensatz dazu wurde die systematische Verringerung der Transformer-Tiefe bislang wenig beachtet und, nach unserem Wissenstand, noch nicht für flow-basierte VLA-Modelle unter Knowledge Distillation erforscht. In dieser Arbeit stellen wir Shallow-pi vor, ein prinzipielles Knowledge-Distillation-Framework, das die Transformer-Tiefe des VLM-Backbones und des flow-basierten Aktionskopfes drastisch von 18 auf 6 Schichten reduziert. Shallow-pi erreicht eine mehr als zweifach schnellere Inferenz bei einem absoluten Leistungsabfall von weniger als einem Prozent auf Standard-Manipulations-Benchmarks und etabliert damit state-of-the-art Leistung unter reduzierten VLA-Modellen. Entscheidend ist, dass wir unseren Ansatz durch industrielle Echtzeitexperimente auf Jetson Orin und Jetson Thor über mehrere Roboterplattformen, einschließlich humanoider Systeme, in komplexen und dynamischen Manipulationsszenarien validieren.
English
The growing demand for real-time robotic deployment necessitates fast and on-device inference for vision-language-action (VLA) models. Within the VLA literature, efficiency has been extensively studied at the token level, such as visual token pruning. In contrast, systematic transformer layer reduction has received limited attention and, to the best of our knowledge, has not been explored for flow-based VLA models under knowledge distillation. In this work, we propose Shallow-pi, a principled knowledge distillation framework that aggressively reduces the transformer depth of both the VLM backbone and the flow-based action head, compressing the model from 18 to 6 layers. Shallow-pi achieves over two times faster inference with less than one percent absolute drop in success rate on standard manipulation benchmarks, establishing state-of-the-art performance among reduced VLA models. Crucially, we validate our approach through industrial-scale real-world experiments on Jetson Orin and Jetson Thor across multiple robot platforms, including humanoid systems, in complex and dynamic manipulation scenarios.