ChatPaper.aiChatPaper

Fast-ThinkAct: Efficiënte Visie-Taal-Actie-Redenering via Verbaal Maakbare Latente Planning

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

January 14, 2026
Auteurs: Chi-Pin Huang, Yunze Man, Zhiding Yu, Min-Hung Chen, Jan Kautz, Yu-Chiang Frank Wang, Fu-En Yang
cs.AI

Samenvatting

Vision-Language-Action (VLA)-taken vereisen redeneren over complexe visuele scènes en het uitvoeren van adaptieve acties in dynamische omgevingen. Hoewel recente onderzoeken naar redenerende VLA's aantonen dat expliciete chain-of-thought (CoT) de generalisatie kan verbeteren, lijden ze onder hoge inferentielatentie door lange redeneersporen. Wij stellen Fast-ThinkAct voor, een efficiënt redeneerraamwerk dat compacte maar krachtige planning bereikt door middel van verbaliseerbare latente redenering. Fast-ThinkAct leert efficiënt te redeneren met latente CoT's door distillatie van een teacher-model, aangedreven door een voorkeursgestuurd doel om manipulatietrajecten uit te lijnen, wat zowel linguïstische als visuele planningscapaciteiten overdraagt voor embodied control. Dit maakt reasoning-enhanced policy learning mogelijk die compact redeneren effectief verbindt met actie-uitvoering. Uitgebreide experimenten op diverse embodied manipulatie- en redeneerbenchmarks tonen aan dat Fast-ThinkAct sterke prestaties bereikt met tot 89,3% gereduceerde inferentielatentie ten opzichte van state-of-the-art redenerende VLA's, waarbij effectieve planning over lange horizonnen, few-shot-aanpassing en foutherstel behouden blijven.
English
Vision-Language-Action (VLA) tasks require reasoning over complex visual scenes and executing adaptive actions in dynamic environments. While recent studies on reasoning VLAs show that explicit chain-of-thought (CoT) can improve generalization, they suffer from high inference latency due to lengthy reasoning traces. We propose Fast-ThinkAct, an efficient reasoning framework that achieves compact yet performant planning through verbalizable latent reasoning. Fast-ThinkAct learns to reason efficiently with latent CoTs by distilling from a teacher, driven by a preference-guided objective to align manipulation trajectories that transfers both linguistic and visual planning capabilities for embodied control. This enables reasoning-enhanced policy learning that effectively connects compact reasoning to action execution. Extensive experiments across diverse embodied manipulation and reasoning benchmarks demonstrate that Fast-ThinkAct achieves strong performance with up to 89.3\% reduced inference latency over state-of-the-art reasoning VLAs, while maintaining effective long-horizon planning, few-shot adaptation, and failure recovery.
PDF361January 16, 2026