ThinkAct: Ragionamento Visione-Linguaggio-Azione tramite Pianificazione Latente Visiva Rinforzata
ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning
July 22, 2025
Autori: Chi-Pin Huang, Yueh-Hua Wu, Min-Hung Chen, Yu-Chiang Frank Wang, Fu-En Yang
cs.AI
Abstract
I compiti di ragionamento visione-linguaggio-azione (VLA) richiedono agli agenti di interpretare istruzioni multimodali, eseguire pianificazioni a lungo termine e agire in modo adattivo in ambienti dinamici. Gli approcci esistenti tipicamente addestrano i modelli VLA in modo end-to-end, mappando direttamente gli input alle azioni senza un ragionamento esplicito, il che limita la loro capacità di pianificare su più passaggi o di adattarsi a variazioni complesse del compito. In questo articolo, proponiamo ThinkAct, un framework a doppio sistema che collega il ragionamento di alto livello con l'esecuzione di azioni di basso livello attraverso una pianificazione latente visiva rinforzata. ThinkAct addestra un LLM multimodale a generare piani di ragionamento incarnati guidati da ricompense visive allineate alle azioni basate sul completamento dell'obiettivo e sulla coerenza della traiettoria. Questi piani di ragionamento vengono compressi in un latente visivo che condiziona un modello di azione a valle per un'esecuzione robusta delle azioni negli ambienti target. Esperimenti estesi su benchmark di ragionamento incarnato e manipolazione robotica dimostrano che ThinkAct abilita l'adattamento few-shot, la pianificazione a lungo termine e comportamenti di autocorrezione in complessi compiti di intelligenza artificiale incarnata.
English
Vision-language-action (VLA) reasoning tasks require agents to interpret
multimodal instructions, perform long-horizon planning, and act adaptively in
dynamic environments. Existing approaches typically train VLA models in an
end-to-end fashion, directly mapping inputs to actions without explicit
reasoning, which hinders their ability to plan over multiple steps or adapt to
complex task variations. In this paper, we propose ThinkAct, a dual-system
framework that bridges high-level reasoning with low-level action execution via
reinforced visual latent planning. ThinkAct trains a multimodal LLM to generate
embodied reasoning plans guided by reinforcing action-aligned visual rewards
based on goal completion and trajectory consistency. These reasoning plans are
compressed into a visual plan latent that conditions a downstream action model
for robust action execution on target environments. Extensive experiments on
embodied reasoning and robot manipulation benchmarks demonstrate that ThinkAct
enables few-shot adaptation, long-horizon planning, and self-correction
behaviors in complex embodied AI tasks.