ThinkAct: Raciocínio Visão-Linguagem-Ação via Planejamento de Latentes Visuais Reforçado
ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning
July 22, 2025
Autores: Chi-Pin Huang, Yueh-Hua Wu, Min-Hung Chen, Yu-Chiang Frank Wang, Fu-En Yang
cs.AI
Resumo
Tarefas de raciocínio visão-linguagem-ação (VLA) exigem que agentes interpretem instruções multimodais, realizem planejamento de longo prazo e ajam de forma adaptativa em ambientes dinâmicos. As abordagens existentes geralmente treinam modelos VLA de ponta a ponta, mapeando diretamente entradas para ações sem raciocínio explícito, o que limita sua capacidade de planejar em múltiplos passos ou se adaptar a variações complexas de tarefas. Neste artigo, propomos o ThinkAct, um framework de sistema duplo que conecta o raciocínio de alto nível à execução de ações de baixo nível por meio de planejamento visual latente reforçado. O ThinkAct treina um modelo de linguagem multimodal (LLM) para gerar planos de raciocínio incorporados, guiados por recompensas visuais alinhadas à ação com base na conclusão de objetivos e na consistência da trajetória. Esses planos de raciocínio são comprimidos em um latente visual de plano que condiciona um modelo de ação subsequente para execução robusta de ações em ambientes-alvo. Experimentos extensivos em benchmarks de raciocínio incorporado e manipulação robótica demonstram que o ThinkAct permite adaptação com poucos exemplos, planejamento de longo prazo e comportamentos de autocorreção em tarefas complexas de IA incorporada.
English
Vision-language-action (VLA) reasoning tasks require agents to interpret
multimodal instructions, perform long-horizon planning, and act adaptively in
dynamic environments. Existing approaches typically train VLA models in an
end-to-end fashion, directly mapping inputs to actions without explicit
reasoning, which hinders their ability to plan over multiple steps or adapt to
complex task variations. In this paper, we propose ThinkAct, a dual-system
framework that bridges high-level reasoning with low-level action execution via
reinforced visual latent planning. ThinkAct trains a multimodal LLM to generate
embodied reasoning plans guided by reinforcing action-aligned visual rewards
based on goal completion and trajectory consistency. These reasoning plans are
compressed into a visual plan latent that conditions a downstream action model
for robust action execution on target environments. Extensive experiments on
embodied reasoning and robot manipulation benchmarks demonstrate that ThinkAct
enables few-shot adaptation, long-horizon planning, and self-correction
behaviors in complex embodied AI tasks.