Shallow-π: 흐름 기반 시각언어모델을 위한 지식 증류
Shallow-π: Knowledge Distillation for Flow-based VLAs
January 28, 2026
저자: Boseong Jeon, Yunho Choi, Taehan Kim
cs.AI
초록
실시간 로봇 적용에 대한 수요 증가로 인해 시각-언어-행동(VLA) 모델의 빠른 온디바이스 추론이 필요해졌습니다. VLA 연구에서 효율성은 시각 토큰 프루닝과 같은 토큰 수준에서 광범위하게 연구되어 왔습니다. 이와 대조적으로 체계적인 트랜스포머 계층 축소는 상대적으로 주목을 받지 못했으며, 저자들이 아는 한 지식 증류 하에서 흐름 기반 VLA 모델에 적용된 사례는 없었습니다. 본 연구에서는 VLM 백본과 흐름 기반 행동 헤드의 트랜스포머 깊이를 18개 계층에서 6개 계층으로 공격적으로 줄이는 체계적인 지식 증류 프레임워크인 Shallow-pi를 제안합니다. Shallow-pi는 표준 매니퓰레이션 벤치마크에서 성공률이 1% 미만의 절대적 하락만으로 추론 속도를 두 배 이상 향상시켜, 경량화된 VLA 모델 중 최첨단 성능을 입증했습니다. 특히, 우리는 Jetson Orin과 Jetson Thor를 활용한 인간형 시스템을 포함한 다양한 로봇 플랫폼에서 복잡하고 동적인 매니퓰레이션 시나리오에 대한 산업 규모의 실제 실험을 통해 접근법의 타당성을 검증했습니다.
English
The growing demand for real-time robotic deployment necessitates fast and on-device inference for vision-language-action (VLA) models. Within the VLA literature, efficiency has been extensively studied at the token level, such as visual token pruning. In contrast, systematic transformer layer reduction has received limited attention and, to the best of our knowledge, has not been explored for flow-based VLA models under knowledge distillation. In this work, we propose Shallow-pi, a principled knowledge distillation framework that aggressively reduces the transformer depth of both the VLM backbone and the flow-based action head, compressing the model from 18 to 6 layers. Shallow-pi achieves over two times faster inference with less than one percent absolute drop in success rate on standard manipulation benchmarks, establishing state-of-the-art performance among reduced VLA models. Crucially, we validate our approach through industrial-scale real-world experiments on Jetson Orin and Jetson Thor across multiple robot platforms, including humanoid systems, in complex and dynamic manipulation scenarios.