ThinkAct: Razonamiento Visión-Lenguaje-Acción mediante Planificación Latente Visual Reforzada
ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning
July 22, 2025
Autores: Chi-Pin Huang, Yueh-Hua Wu, Min-Hung Chen, Yu-Chiang Frank Wang, Fu-En Yang
cs.AI
Resumen
Las tareas de razonamiento visión-lenguaje-acción (VLA) requieren que los agentes interpreten instrucciones multimodales, realicen planificación a largo plazo y actúen de manera adaptativa en entornos dinámicos. Los enfoques existentes suelen entrenar modelos VLA de extremo a extremo, mapeando directamente las entradas a acciones sin un razonamiento explícito, lo que limita su capacidad para planificar en múltiples pasos o adaptarse a variaciones complejas de tareas. En este artículo, proponemos ThinkAct, un marco de doble sistema que conecta el razonamiento de alto nivel con la ejecución de acciones de bajo nivel mediante planificación latente visual reforzada. ThinkAct entrena un modelo de lenguaje multimodal (LLM) para generar planes de razonamiento encarnado guiados por recompensas visuales alineadas con acciones basadas en la finalización de objetivos y la consistencia de trayectorias. Estos planes de razonamiento se comprimen en un latente de plan visual que condiciona un modelo de acción descendente para una ejecución robusta de acciones en entornos objetivo. Experimentos exhaustivos en benchmarks de razonamiento encarnado y manipulación robótica demuestran que ThinkAct permite la adaptación con pocos ejemplos, la planificación a largo plazo y comportamientos de autocorrección en tareas complejas de IA encarnada.
English
Vision-language-action (VLA) reasoning tasks require agents to interpret
multimodal instructions, perform long-horizon planning, and act adaptively in
dynamic environments. Existing approaches typically train VLA models in an
end-to-end fashion, directly mapping inputs to actions without explicit
reasoning, which hinders their ability to plan over multiple steps or adapt to
complex task variations. In this paper, we propose ThinkAct, a dual-system
framework that bridges high-level reasoning with low-level action execution via
reinforced visual latent planning. ThinkAct trains a multimodal LLM to generate
embodied reasoning plans guided by reinforcing action-aligned visual rewards
based on goal completion and trajectory consistency. These reasoning plans are
compressed into a visual plan latent that conditions a downstream action model
for robust action execution on target environments. Extensive experiments on
embodied reasoning and robot manipulation benchmarks demonstrate that ThinkAct
enables few-shot adaptation, long-horizon planning, and self-correction
behaviors in complex embodied AI tasks.