ChatPaper.aiChatPaper

Fast-ThinkAct: 언어화 가능한 잠재 계획을 통한 효율적인 비전-언어-행동 추론

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

January 14, 2026
저자: Chi-Pin Huang, Yunze Man, Zhiding Yu, Min-Hung Chen, Jan Kautz, Yu-Chiang Frank Wang, Fu-En Yang
cs.AI

초록

비전-언어-행동(VLA) 과제는 복잡한 시각적 장면에 대한 추론과 역동적 환경에서의 적응적 행동 실행을 요구합니다. 최근 추론형 VLA 연구들은 명시적 사고 연쇄(CoT)가 일반화 성능을 향상시킬 수 있음을 보여주지만, 과도하게 길어지는 추론 경로로 인해 높은 추론 지연 시간이 발생하는 문제점을 안고 있습니다. 본 연구에서는 언어화 가능한 잠재적 추론을 통해 간결하면서도 높은 성능의 계획 수립을 달성하는 효율적 추론 프레임워크인 Fast-ThinkAct를 제안합니다. Fast-ThinkAct는 교사 모델로부터 지식을 증류하여 잠재적 CoT를 효율적으로 추론하는 방법을 학습하며, 조작 궤적 정렬을 위한 선호도 기반 목표 함수를 통해 구체화된 제어를 위한 언어적 및 시각적 계획 능력을 동시에 전이합니다. 이는 간결한 추론과 행동 실행을 효과적으로 연결하는 추론 강화 정책 학습을 가능하게 합니다. 다양한 구체화 조작 및 추론 벤치마크에서의 광범위한 실험을 통해 Fast-ThinkAct가 최첨단 추론형 VLA 대비 최대 89.3% 감소한 추론 지연 시간으로 우수한 성능을 달성함과 동시에 효과적인 장기 계획, 소수 샷 적응, 실패 복구 능력을 유지함을 입증하였습니다.
English
Vision-Language-Action (VLA) tasks require reasoning over complex visual scenes and executing adaptive actions in dynamic environments. While recent studies on reasoning VLAs show that explicit chain-of-thought (CoT) can improve generalization, they suffer from high inference latency due to lengthy reasoning traces. We propose Fast-ThinkAct, an efficient reasoning framework that achieves compact yet performant planning through verbalizable latent reasoning. Fast-ThinkAct learns to reason efficiently with latent CoTs by distilling from a teacher, driven by a preference-guided objective to align manipulation trajectories that transfers both linguistic and visual planning capabilities for embodied control. This enables reasoning-enhanced policy learning that effectively connects compact reasoning to action execution. Extensive experiments across diverse embodied manipulation and reasoning benchmarks demonstrate that Fast-ThinkAct achieves strong performance with up to 89.3\% reduced inference latency over state-of-the-art reasoning VLAs, while maintaining effective long-horizon planning, few-shot adaptation, and failure recovery.
PDF361January 16, 2026