Fast-ThinkAct: 言語化可能な潜在計画による効率的な視覚-言語-行動推論
Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning
January 14, 2026
著者: Chi-Pin Huang, Yunze Man, Zhiding Yu, Min-Hung Chen, Jan Kautz, Yu-Chiang Frank Wang, Fu-En Yang
cs.AI
要旨
Vision-Language-Action(VLA)タスクは、複雑な視覚シーンに対する推論と、動的環境における適応的行動の実行を必要とする。近年の推論型VLAに関する研究では、明示的な連鎖思考(CoT)が一般化性能を向上させることが示されているが、長大な推論トレースにより高い推論遅延が生じる課題がある。本論文では、言語化可能な潜在推論を通じてコンパクトかつ高性能な計画を実現する効率的な推論フレームワークFast-ThinkActを提案する。Fast-ThinkActは教師モデルからの知識蒸約により潜在CoTを用いた効率的な推論を学習し、操作軌道を整合させる選好誘導型目的関数により、具身制御のための言語的・視覚的計画能力を同時に転移する。これにより、コンパクトな推論と行動実行を効果的に結びつける推論強化型方策学習を実現する。多様な具身操作タスクおよび推論ベンチマークにおける大規模実験により、Fast-ThinkActが最先端の推論型VLAと比較して最大89.3%の推論遅延削減を達成しつつ、効果的な長期計画、少数ショット適応、失敗回復機能を維持することを実証する。
English
Vision-Language-Action (VLA) tasks require reasoning over complex visual scenes and executing adaptive actions in dynamic environments. While recent studies on reasoning VLAs show that explicit chain-of-thought (CoT) can improve generalization, they suffer from high inference latency due to lengthy reasoning traces. We propose Fast-ThinkAct, an efficient reasoning framework that achieves compact yet performant planning through verbalizable latent reasoning. Fast-ThinkAct learns to reason efficiently with latent CoTs by distilling from a teacher, driven by a preference-guided objective to align manipulation trajectories that transfers both linguistic and visual planning capabilities for embodied control. This enables reasoning-enhanced policy learning that effectively connects compact reasoning to action execution. Extensive experiments across diverse embodied manipulation and reasoning benchmarks demonstrate that Fast-ThinkAct achieves strong performance with up to 89.3\% reduced inference latency over state-of-the-art reasoning VLAs, while maintaining effective long-horizon planning, few-shot adaptation, and failure recovery.