Shallow-π: Distilação de Conhecimento para VLAs Baseadas em Fluxo

Resumo

A crescente demanda pela implantação de robôs em tempo real exige inferência rápida e no dispositivo para modelos visão-linguagem-ação (VLA). Na literatura sobre VLA, a eficiência tem sido amplamente estudada ao nível de tokens, como a poda de tokens visuais. Em contraste, a redução sistemática de camadas do transformer tem recebido atenção limitada e, até onde sabemos, não foi explorada para modelos VLA baseados em fluxo sob destilação de conhecimento. Neste trabalho, propomos o Shallow-pi, uma estrutura de destilação de conhecimento fundamentada que reduz agressivamente a profundidade do transformer tanto do *backbone* de VLM quanto do cabeçalho de ação baseado em fluxo, comprimindo o modelo de 18 para 6 camadas. O Shallow-pi alcança uma inferência mais de duas vezes mais rápida com menos de um por cento de queda absoluta na taxa de sucesso em *benchmarks* padrão de manipulação, estabelecendo um desempenho de ponta entre os modelos VLA reduzidos. Crucialmente, validamos nossa abordagem por meio de experimentos em escala industrial no mundo real em Jetson Orin e Jetson Thor, através de múltiplas plataformas robóticas, incluindo sistemas humanoides, em cenários complexos e dinâmicos de manipulação.

English

The growing demand for real-time robotic deployment necessitates fast and on-device inference for vision-language-action (VLA) models. Within the VLA literature, efficiency has been extensively studied at the token level, such as visual token pruning. In contrast, systematic transformer layer reduction has received limited attention and, to the best of our knowledge, has not been explored for flow-based VLA models under knowledge distillation. In this work, we propose Shallow-pi, a principled knowledge distillation framework that aggressively reduces the transformer depth of both the VLM backbone and the flow-based action head, compressing the model from 18 to 6 layers. Shallow-pi achieves over two times faster inference with less than one percent absolute drop in success rate on standard manipulation benchmarks, establishing state-of-the-art performance among reduced VLA models. Crucially, we validate our approach through industrial-scale real-world experiments on Jetson Orin and Jetson Thor across multiple robot platforms, including humanoid systems, in complex and dynamic manipulation scenarios.

Shallow-π: Distilação de Conhecimento para VLAs Baseadas em Fluxo

Shallow-π: Knowledge Distillation for Flow-based VLAs

Resumo

Support