Shallow-π: フローベース視覚言語モデルにおける知識蒸留
Shallow-π: Knowledge Distillation for Flow-based VLAs
January 28, 2026
著者: Boseong Jeon, Yunho Choi, Taehan Kim
cs.AI
要旨
ロボットのリアルタイム展開に対する需要の高まりに伴い、視覚言語行動(VLA)モデルにおける高速かつオンデバイス推論の必要性が増している。VLA研究において、効率性は視覚トークンの剪定など、トークンレベルで広く研究されてきた。一方で、体系的なTransformer層の削減に関する研究は限られており、知識蒸約下におけるフローベースVLAモデルの層削減は、我々の知る限り未開拓である。本研究では、Shallow-piを提案する。これはVLMバックボーンとフローベース行動ヘッドの両方のTransformer深さを18層から6層へと積極的に圧縮する、原理に基づいた知識蒸約フレームワークである。Shallow-piは、標準的なマニピュレーションベンチマークにおいて成功率の絶対値で1%未満の低下に留めつつ、推論速度を2倍以上高速化し、縮小版VLAモデルの中で最先端の性能を確立した。決定的に、我々はJetson OrinおよびJetson Thor上で、ヒューマノイドシステムを含む複数のロボットプラットフォームを用い、複雑で動的なマニピュレーションシナリオにおける産業規模の実世界実験を通じて本アプローチを検証した。
English
The growing demand for real-time robotic deployment necessitates fast and on-device inference for vision-language-action (VLA) models. Within the VLA literature, efficiency has been extensively studied at the token level, such as visual token pruning. In contrast, systematic transformer layer reduction has received limited attention and, to the best of our knowledge, has not been explored for flow-based VLA models under knowledge distillation. In this work, we propose Shallow-pi, a principled knowledge distillation framework that aggressively reduces the transformer depth of both the VLM backbone and the flow-based action head, compressing the model from 18 to 6 layers. Shallow-pi achieves over two times faster inference with less than one percent absolute drop in success rate on standard manipulation benchmarks, establishing state-of-the-art performance among reduced VLA models. Crucially, we validate our approach through industrial-scale real-world experiments on Jetson Orin and Jetson Thor across multiple robot platforms, including humanoid systems, in complex and dynamic manipulation scenarios.