ThinkAct: Razonamiento Visión-Lenguaje-Acción mediante Planificación Latente Visual Reforzada

Resumen

Las tareas de razonamiento visión-lenguaje-acción (VLA) requieren que los agentes interpreten instrucciones multimodales, realicen planificación a largo plazo y actúen de manera adaptativa en entornos dinámicos. Los enfoques existentes suelen entrenar modelos VLA de extremo a extremo, mapeando directamente las entradas a acciones sin un razonamiento explícito, lo que limita su capacidad para planificar en múltiples pasos o adaptarse a variaciones complejas de tareas. En este artículo, proponemos ThinkAct, un marco de doble sistema que conecta el razonamiento de alto nivel con la ejecución de acciones de bajo nivel mediante planificación latente visual reforzada. ThinkAct entrena un modelo de lenguaje multimodal (LLM) para generar planes de razonamiento encarnado guiados por recompensas visuales alineadas con acciones basadas en la finalización de objetivos y la consistencia de trayectorias. Estos planes de razonamiento se comprimen en un latente de plan visual que condiciona un modelo de acción descendente para una ejecución robusta de acciones en entornos objetivo. Experimentos exhaustivos en benchmarks de razonamiento encarnado y manipulación robótica demuestran que ThinkAct permite la adaptación con pocos ejemplos, la planificación a largo plazo y comportamientos de autocorrección en tareas complejas de IA encarnada.

English

Vision-language-action (VLA) reasoning tasks require agents to interpret multimodal instructions, perform long-horizon planning, and act adaptively in dynamic environments. Existing approaches typically train VLA models in an end-to-end fashion, directly mapping inputs to actions without explicit reasoning, which hinders their ability to plan over multiple steps or adapt to complex task variations. In this paper, we propose ThinkAct, a dual-system framework that bridges high-level reasoning with low-level action execution via reinforced visual latent planning. ThinkAct trains a multimodal LLM to generate embodied reasoning plans guided by reinforcing action-aligned visual rewards based on goal completion and trajectory consistency. These reasoning plans are compressed into a visual plan latent that conditions a downstream action model for robust action execution on target environments. Extensive experiments on embodied reasoning and robot manipulation benchmarks demonstrate that ThinkAct enables few-shot adaptation, long-horizon planning, and self-correction behaviors in complex embodied AI tasks.

ThinkAct: Razonamiento Visión-Lenguaje-Acción mediante Planificación Latente Visual Reforzada

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

Resumen

Support