ThinkAct : Raisonnement Vision-Langue-Action via Planification Latente Visuelle Renforcée
ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning
July 22, 2025
papers.authors: Chi-Pin Huang, Yueh-Hua Wu, Min-Hung Chen, Yu-Chiang Frank Wang, Fu-En Yang
cs.AI
papers.abstract
Les tâches de raisonnement vision-langage-action (VLA) exigent des agents qu'ils interprètent des instructions multimodales, planifient sur un horizon temporel étendu et agissent de manière adaptative dans des environnements dynamiques. Les approches existantes entraînent généralement les modèles VLA de manière end-to-end, mappant directement les entrées aux actions sans raisonnement explicite, ce qui limite leur capacité à planifier sur plusieurs étapes ou à s'adapter à des variations complexes de tâches. Dans cet article, nous proposons ThinkAct, un cadre à double système qui relie le raisonnement de haut niveau à l'exécution d'actions de bas niveau via une planification latente visuelle renforcée. ThinkAct entraîne un modèle de langage multimodal (LLM) à générer des plans de raisonnement incarnés guidés par des récompenses visuelles alignées sur les actions, basées sur l'achèvement des objectifs et la cohérence des trajectoires. Ces plans de raisonnement sont compressés en un latent de plan visuel qui conditionne un modèle d'action en aval pour une exécution robuste des actions dans les environnements cibles. Des expériences approfondies sur des benchmarks de raisonnement incarné et de manipulation robotique démontrent que ThinkAct permet une adaptation en few-shot, une planification à long terme et des comportements d'auto-correction dans des tâches complexes d'IA incarnée.
English
Vision-language-action (VLA) reasoning tasks require agents to interpret
multimodal instructions, perform long-horizon planning, and act adaptively in
dynamic environments. Existing approaches typically train VLA models in an
end-to-end fashion, directly mapping inputs to actions without explicit
reasoning, which hinders their ability to plan over multiple steps or adapt to
complex task variations. In this paper, we propose ThinkAct, a dual-system
framework that bridges high-level reasoning with low-level action execution via
reinforced visual latent planning. ThinkAct trains a multimodal LLM to generate
embodied reasoning plans guided by reinforcing action-aligned visual rewards
based on goal completion and trajectory consistency. These reasoning plans are
compressed into a visual plan latent that conditions a downstream action model
for robust action execution on target environments. Extensive experiments on
embodied reasoning and robot manipulation benchmarks demonstrate that ThinkAct
enables few-shot adaptation, long-horizon planning, and self-correction
behaviors in complex embodied AI tasks.