ChatPaper.aiChatPaper

ThinkAct: Vision-Sprache-Handlungs-Reasoning durch verstärkte visuelle latente Planung

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

July 22, 2025
papers.authors: Chi-Pin Huang, Yueh-Hua Wu, Min-Hung Chen, Yu-Chiang Frank Wang, Fu-En Yang
cs.AI

papers.abstract

Vision-Language-Action (VLA)-Reasoning-Aufgaben erfordern, dass Agenten multimodale Anweisungen interpretieren, langfristige Planungen durchführen und sich in dynamischen Umgebungen adaptiv verhalten. Bestehende Ansätze trainieren VLA-Modelle typischerweise end-to-end, indem sie Eingaben direkt auf Aktionen abbilden, ohne explizites Reasoning. Dies behindert ihre Fähigkeit, über mehrere Schritte zu planen oder sich an komplexe Aufgabenvariationen anzupassen. In diesem Artikel stellen wir ThinkAct vor, ein Dual-System-Framework, das hochrangiges Reasoning mit niederrangiger Aktionsausführung durch verstärktes visuelles latentes Planen verbindet. ThinkAct trainiert ein multimodales LLM, um verkörpertes Reasoning-Pläne zu generieren, die durch verstärkende, aktionsausgerichtete visuelle Belohnungen basierend auf Zielerreichung und Trajektorienkonsistenz geleitet werden. Diese Reasoning-Pläne werden in ein visuelles Plan-Latent komprimiert, das ein nachgelagertes Aktionsmodell für robuste Aktionsausführung in Zielumgebungen konditioniert. Umfangreiche Experimente auf Benchmarks für verkörpertes Reasoning und Roboter-Manipulation zeigen, dass ThinkAct Few-Shot-Adaption, langfristige Planung und Selbstkorrekturverhalten in komplexen verkörperten KI-Aufgaben ermöglicht.
English
Vision-language-action (VLA) reasoning tasks require agents to interpret multimodal instructions, perform long-horizon planning, and act adaptively in dynamic environments. Existing approaches typically train VLA models in an end-to-end fashion, directly mapping inputs to actions without explicit reasoning, which hinders their ability to plan over multiple steps or adapt to complex task variations. In this paper, we propose ThinkAct, a dual-system framework that bridges high-level reasoning with low-level action execution via reinforced visual latent planning. ThinkAct trains a multimodal LLM to generate embodied reasoning plans guided by reinforcing action-aligned visual rewards based on goal completion and trajectory consistency. These reasoning plans are compressed into a visual plan latent that conditions a downstream action model for robust action execution on target environments. Extensive experiments on embodied reasoning and robot manipulation benchmarks demonstrate that ThinkAct enables few-shot adaptation, long-horizon planning, and self-correction behaviors in complex embodied AI tasks.
PDF271July 23, 2025