Fast-ThinkAct: Effizientes Vision-Sprache-Handeln-Reasoning durch verbalisierbare latente Planung
Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
January 14, 2026
papers.authors: Chi-Pin Huang, Yunze Man, Zhiding Yu, Min-Hung Chen, Jan Kautz, Yu-Chiang Frank Wang, Fu-En Yang
cs.AI
papers.abstract
Vision-Language-Action (VLA)-Aufgaben erfordern das Schließen über komplexe visuelle Szenen und die Ausführung adaptiver Aktionen in dynamischen Umgebungen. Während neuere Studien zu reasoning-basierten VLA-Systemen zeigen, dass explizite Chain-of-Thought (CoT)-Ansätze die Generalisierung verbessern können, leiden diese unter hoher Inferenzlatenz aufgrund langer Reasoning-Pfade. Wir schlagen Fast-ThinkAct vor, ein effizientes Reasoning-Framework, das durch verbalisierbare latente Schlussfolgerungen eine kompakte und leistungsfähige Planung erreicht. Fast-ThinkAct lernt effizientes Reasoning mit latenten CoTs durch Distillation von einem Teacher-Modell, angetrieben durch ein präferenzgeführtes Ziel, das Manipulationspfade so ausrichtet, dass sowohl linguistische als auch visuelle Planungsfähigkeiten für embodied Control übertragen werden. Dies ermöglicht reasoningsgestütztes Policy-Lernen, das kompaktes Schlussfolgern effektiv mit Aktionsausführung verbindet. Umfangreiche Experimente über diverse embodied Manipulations- und Reasoning-Benchmarks zeigen, dass Fast-ThinkAct bei stark reduzierter Inferenzlatenz (bis zu 89,3 % gegenüber state-of-the-art reasoning VLA-Systemen) eine hohe Leistung erzielt und dabei effektive Langzeitplanung, Few-Shot-Adaption und Fehlerbeibehung beibehält.
English
Vision-Language-Action (VLA) tasks require reasoning over complex visual scenes and executing adaptive actions in dynamic environments. While recent studies on reasoning VLAs show that explicit chain-of-thought (CoT) can improve generalization, they suffer from high inference latency due to lengthy reasoning traces. We propose Fast-ThinkAct, an efficient reasoning framework that achieves compact yet performant planning through verbalizable latent reasoning. Fast-ThinkAct learns to reason efficiently with latent CoTs by distilling from a teacher, driven by a preference-guided objective to align manipulation trajectories that transfers both linguistic and visual planning capabilities for embodied control. This enables reasoning-enhanced policy learning that effectively connects compact reasoning to action execution. Extensive experiments across diverse embodied manipulation and reasoning benchmarks demonstrate that Fast-ThinkAct achieves strong performance with up to 89.3\% reduced inference latency over state-of-the-art reasoning VLAs, while maintaining effective long-horizon planning, few-shot adaptation, and failure recovery.