ChatPaper.aiChatPaper

Fast-ThinkAct: Эффективное рассуждение в системах «зрение-язык-действие» через вербализуемое латентное планирование

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

January 14, 2026
Авторы: Chi-Pin Huang, Yunze Man, Zhiding Yu, Min-Hung Chen, Jan Kautz, Yu-Chiang Frank Wang, Fu-En Yang
cs.AI

Аннотация

Задачи "Vision-Language-Action" (VLA) требуют анализа сложных визуальных сцен и выполнения адаптивных действий в динамических средах. Хотя последние исследования в области рассуждающих VLA-систем показывают, что явные цепочки рассуждений (CoT) могут улучшить обобщающую способность, они страдают от высокой задержки вывода из-за длинных трасс рассуждений. Мы предлагаем Fast-ThinkAct — эффективную архитектуру рассуждений, которая достигает компактного, но производительного планирования через вербализуемое латентное рассуждение. Fast-ThinkAct обучается эффективно рассуждать с помощью латентных CoT путем извлечения знаний из учителя, управляемого целевой функцией, ориентированной на предпочтения, для согласования траекторий манипулирования, которая переносит как лингвистические, так и визуальные способности планирования для воплощенного управления. Это позволяет реализовать обучение политик, усиленное рассуждениями, которое эффективно связывает компактное рассуждение с выполнением действий. Многочисленные эксперименты на различных бенчмарках воплощенного манипулирования и рассуждений демонстрируют, что Fast-ThinkAct достигает высокой производительности с сокращением задержки вывода до 89,3% по сравнению с передовыми рассуждающими VLA-системами, сохраняя при этом эффективное планирование на длинных горизонтах, few-shot адаптацию и восстановление после сбоев.
English
Vision-Language-Action (VLA) tasks require reasoning over complex visual scenes and executing adaptive actions in dynamic environments. While recent studies on reasoning VLAs show that explicit chain-of-thought (CoT) can improve generalization, they suffer from high inference latency due to lengthy reasoning traces. We propose Fast-ThinkAct, an efficient reasoning framework that achieves compact yet performant planning through verbalizable latent reasoning. Fast-ThinkAct learns to reason efficiently with latent CoTs by distilling from a teacher, driven by a preference-guided objective to align manipulation trajectories that transfers both linguistic and visual planning capabilities for embodied control. This enables reasoning-enhanced policy learning that effectively connects compact reasoning to action execution. Extensive experiments across diverse embodied manipulation and reasoning benchmarks demonstrate that Fast-ThinkAct achieves strong performance with up to 89.3\% reduced inference latency over state-of-the-art reasoning VLAs, while maintaining effective long-horizon planning, few-shot adaptation, and failure recovery.
PDF361January 16, 2026