Shallow-π: Distillazione della Conoscenza per VLA Basati su Flusso

Abstract

La crescente domanda di implementazione robotica in tempo reale richiede inferenze rapide e on-device per i modelli visione-linguaggio-azione (VLA). Nella letteratura VLA, l'efficienza è stata ampiamente studiata a livello di token, come la potatura dei token visivi. Al contrario, la riduzione sistematica degli strati del transformer ha ricevuto un'attenzione limitata e, per quanto a nostra conoscenza, non è stata esplorata per modelli VLA basati su flusso sotto distillazione della conoscenza. In questo lavoro proponiamo Shallow-pi, un framework di distillazione della conoscenza principiato che riduce aggressivamente la profondità del transformer sia del backbone VLM che della testina azionale basata su flusso, comprimendo il modello da 18 a 6 strati. Shallow-pi raggiunge un'inferenza oltre due volte più veloce con un calo assoluto inferiore all'un percento nel tasso di successo su benchmark standard di manipolazione, stabilendo prestazioni all'avanguardia tra i modelli VLA ridotti. Crucialmente, convalidiamo il nostro approccio attraverso esperimenti reali su scala industriale su Jetson Orin e Jetson Thor su molteplici piattaforme robotiche, inclusi sistemi umanoidi, in scenari di manipolazione complessi e dinamici.

English

The growing demand for real-time robotic deployment necessitates fast and on-device inference for vision-language-action (VLA) models. Within the VLA literature, efficiency has been extensively studied at the token level, such as visual token pruning. In contrast, systematic transformer layer reduction has received limited attention and, to the best of our knowledge, has not been explored for flow-based VLA models under knowledge distillation. In this work, we propose Shallow-pi, a principled knowledge distillation framework that aggressively reduces the transformer depth of both the VLM backbone and the flow-based action head, compressing the model from 18 to 6 layers. Shallow-pi achieves over two times faster inference with less than one percent absolute drop in success rate on standard manipulation benchmarks, establishing state-of-the-art performance among reduced VLA models. Crucially, we validate our approach through industrial-scale real-world experiments on Jetson Orin and Jetson Thor across multiple robot platforms, including humanoid systems, in complex and dynamic manipulation scenarios.

Shallow-π: Distillazione della Conoscenza per VLA Basati su Flusso

Shallow-π: Knowledge Distillation for Flow-based VLAs

Abstract

Support