Fast-ThinkAct: Ragionamento Efficace Visione-Linguaggio-Azione tramite Pianificazione Latente Verbalizzabile

Abstract

I compiti Vision-Language-Action (VLA) richiedono un ragionamento su scene visive complesse e l'esecuzione di azioni adattive in ambienti dinamici. Sebbene studi recenti sui VLA di ragionamento dimostrino che una catena di pensiero (CoT) esplicita possa migliorare la generalizzazione, questi soffrono di un'elevata latenza di inferenza a causa delle lunghe tracce di ragionamento. Proponiamo Fast-ThinkAct, un framework di ragionamento efficiente che raggiunge una pianificazione compatta ma performante attraverso un ragionamento latente verbalizzabile. Fast-ThinkAct impara a ragionare efficientemente con CoT latenti distillando le conoscenze da un insegnante, guidato da un obiettivo basato su preferenze per allineare le traiettorie di manipolazione, trasferendo sia le capacità di pianificazione linguistica che visiva per il controllo embodied. Ciò abilita un apprendimento delle politiche potenziato dal ragionamento che collega efficacemente il ragionamento compatto all'esecuzione delle azioni. Esperimenti estesi su vari benchmark di manipolazione embodied e di ragionamento dimostrano che Fast-ThinkAct raggiunge prestazioni solide con una riduzione della latenza di inferenza fino all'89,3% rispetto ai migliori VLA di ragionamento, mantenendo al contempo un'efficace pianificazione a lungo termine, un adattamento few-shot e un recupero dai fallimenti.

English

Vision-Language-Action (VLA) tasks require reasoning over complex visual scenes and executing adaptive actions in dynamic environments. While recent studies on reasoning VLAs show that explicit chain-of-thought (CoT) can improve generalization, they suffer from high inference latency due to lengthy reasoning traces. We propose Fast-ThinkAct, an efficient reasoning framework that achieves compact yet performant planning through verbalizable latent reasoning. Fast-ThinkAct learns to reason efficiently with latent CoTs by distilling from a teacher, driven by a preference-guided objective to align manipulation trajectories that transfers both linguistic and visual planning capabilities for embodied control. This enables reasoning-enhanced policy learning that effectively connects compact reasoning to action execution. Extensive experiments across diverse embodied manipulation and reasoning benchmarks demonstrate that Fast-ThinkAct achieves strong performance with up to 89.3\% reduced inference latency over state-of-the-art reasoning VLAs, while maintaining effective long-horizon planning, few-shot adaptation, and failure recovery.

Fast-ThinkAct: Ragionamento Efficace Visione-Linguaggio-Azione tramite Pianificazione Latente Verbalizzabile

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Abstract

Support