Fast-ThinkAct: Raciocínio Eficiente Visão-Linguagem-Ação via Planeamento Latente Verbalizável

Resumo

As tarefas Visão-Linguagem-Ação (VLA) exigem raciocínio sobre cenas visuais complexas e a execução de ações adaptativas em ambientes dinâmicos. Embora estudos recentes sobre VLAs de raciocínio demonstrem que cadeias de pensamento (CoT) explícitas podem melhorar a generalização, elas sofrem com alta latência de inferência devido aos longos traços de raciocínio. Propomos o Fast-ThinkAct, uma estrutura de raciocínio eficiente que alcança um planeamento compacto e performativo através de raciocínio latente verbalizável. O Fast-ThinkAct aprende a raciocinar eficientemente com CoTs latentes através da destilação de um professor, orientado por um objetivo guiado por preferências para alinhar trajetórias de manipulação que transferem capacidades de planeamento linguístico e visual para o controlo corporificado. Isto permite uma aprendizagem de políticas aprimorada pelo raciocínio que conecta efetivamente o raciocínio compacto à execução de ações. Experimentos extensos em diversos benchmarks de manipulação corporificada e raciocínio demonstram que o Fast-ThinkAct alcança um forte desempenho com até 89,3% de redução na latência de inferência em relação aos VLAs de raciocínio state-of-the-art, mantendo ao mesmo tempo um planeamento eficaz de longo horizonte, adaptação few-shot e recuperação de falhas.

English

Vision-Language-Action (VLA) tasks require reasoning over complex visual scenes and executing adaptive actions in dynamic environments. While recent studies on reasoning VLAs show that explicit chain-of-thought (CoT) can improve generalization, they suffer from high inference latency due to lengthy reasoning traces. We propose Fast-ThinkAct, an efficient reasoning framework that achieves compact yet performant planning through verbalizable latent reasoning. Fast-ThinkAct learns to reason efficiently with latent CoTs by distilling from a teacher, driven by a preference-guided objective to align manipulation trajectories that transfers both linguistic and visual planning capabilities for embodied control. This enables reasoning-enhanced policy learning that effectively connects compact reasoning to action execution. Extensive experiments across diverse embodied manipulation and reasoning benchmarks demonstrate that Fast-ThinkAct achieves strong performance with up to 89.3\% reduced inference latency over state-of-the-art reasoning VLAs, while maintaining effective long-horizon planning, few-shot adaptation, and failure recovery.

Fast-ThinkAct: Raciocínio Eficiente Visão-Linguagem-Ação via Planeamento Latente Verbalizável

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Resumo

Support