Fast-ThinkAct : Raisonnement efficace vision-langage-action par planification latente verbalisable
Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
January 14, 2026
papers.authors: Chi-Pin Huang, Yunze Man, Zhiding Yu, Min-Hung Chen, Jan Kautz, Yu-Chiang Frank Wang, Fu-En Yang
cs.AI
papers.abstract
Les tâches Vision-Langage-Action (VLA) nécessitent un raisonnement sur des scènes visuelles complexes et l'exécution d'actions adaptatives dans des environnements dynamiques. Si les études récentes sur les VLA à raisonnement montrent qu'un enchaînement de pensées (Chain-of-Thought, CoT) explicite peut améliorer la généralisation, elles souffrent d'une latence d'inférence élevée due aux traces de raisonnement longues. Nous proposons Fast-ThinkAct, un cadre de raisonnement efficace qui réalise une planification compacte et performante via un raisonnement latent verbalisable. Fast-ThinkAct apprend à raisonner efficacement avec des CoT latents en se distillant à partir d'un modèle enseignant, guidé par un objectif basé sur les préférences pour aligner les trajectoires de manipulation, transférant ainsi à la fois les capacités de planification linguistique et visuelle pour le contrôle incarné. Cela permet un apprentissage de politiques amélioré par le raisonnement qui connecte efficacement le raisonnement compact à l'exécution des actions. Des expériences approfondies sur divers benchmarks de manipulation incarnée et de raisonnement démontrent que Fast-ThinkAct atteint des performances solides avec une réduction de la latence d'inférence allant jusqu'à 89,3 % par rapport aux VLA à raisonnement de l'état de l'art, tout en maintenant une planification efficace à long terme, une adaptation en few-shot et une capacité de récupération après échec.
English
Vision-Language-Action (VLA) tasks require reasoning over complex visual scenes and executing adaptive actions in dynamic environments. While recent studies on reasoning VLAs show that explicit chain-of-thought (CoT) can improve generalization, they suffer from high inference latency due to lengthy reasoning traces. We propose Fast-ThinkAct, an efficient reasoning framework that achieves compact yet performant planning through verbalizable latent reasoning. Fast-ThinkAct learns to reason efficiently with latent CoTs by distilling from a teacher, driven by a preference-guided objective to align manipulation trajectories that transfers both linguistic and visual planning capabilities for embodied control. This enables reasoning-enhanced policy learning that effectively connects compact reasoning to action execution. Extensive experiments across diverse embodied manipulation and reasoning benchmarks demonstrate that Fast-ThinkAct achieves strong performance with up to 89.3\% reduced inference latency over state-of-the-art reasoning VLAs, while maintaining effective long-horizon planning, few-shot adaptation, and failure recovery.