ChatPaper.aiChatPaper

Fast-ThinkAct: Razonamiento Eficiente Visión-Lenguaje-Acción mediante Planificación Latente Verbalizable

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

January 14, 2026
Autores: Chi-Pin Huang, Yunze Man, Zhiding Yu, Min-Hung Chen, Jan Kautz, Yu-Chiang Frank Wang, Fu-En Yang
cs.AI

Resumen

Las tareas Visión-Lenguaje-Acción (VLA) requieren razonar sobre escenas visuales complejas y ejecutar acciones adaptativas en entornos dinámicos. Si bien estudios recientes sobre VLA de razonamiento muestran que la cadena de pensamiento (CoT) explícita puede mejorar la generalización, estos adolecen de una alta latencia de inferencia debido a trazas de razonamiento extensas. Proponemos Fast-ThinkAct, un marco de razonamiento eficiente que logra una planificación compacta y de alto rendimiento mediante un razonamiento latente verbalizable. Fast-ThinkAct aprende a razonar eficientemente con CoT latentes mediante destilación de un modelo docente, impulsado por un objetivo guiado por preferencias para alinear trayectorias de manipulación que transfieren capacidades de planificación tanto lingüísticas como visuales para el control embodido. Esto permite un aprendizaje de políticas potenciado por el razonamiento que conecta efectivamente el razonamiento compacto con la ejecución de acciones. Experimentos exhaustivos en diversos puntos de referencia de manipulación embodida y razonamiento demuestran que Fast-ThinkAct logra un rendimiento sólido con hasta un 89.3% de reducción en la latencia de inferencia respecto a los VLA de razonamiento de vanguardia, manteniendo al mismo tiempo una planificación efectiva de horizonte largo, adaptación few-shot y recuperación de fallos.
English
Vision-Language-Action (VLA) tasks require reasoning over complex visual scenes and executing adaptive actions in dynamic environments. While recent studies on reasoning VLAs show that explicit chain-of-thought (CoT) can improve generalization, they suffer from high inference latency due to lengthy reasoning traces. We propose Fast-ThinkAct, an efficient reasoning framework that achieves compact yet performant planning through verbalizable latent reasoning. Fast-ThinkAct learns to reason efficiently with latent CoTs by distilling from a teacher, driven by a preference-guided objective to align manipulation trajectories that transfers both linguistic and visual planning capabilities for embodied control. This enables reasoning-enhanced policy learning that effectively connects compact reasoning to action execution. Extensive experiments across diverse embodied manipulation and reasoning benchmarks demonstrate that Fast-ThinkAct achieves strong performance with up to 89.3\% reduced inference latency over state-of-the-art reasoning VLAs, while maintaining effective long-horizon planning, few-shot adaptation, and failure recovery.
PDF361January 16, 2026