ChatPaper.aiChatPaper

ThinkAct: Visie-Taal-Actie Redeneren via Versterkt Visueel Latent Plannen

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

July 22, 2025
Auteurs: Chi-Pin Huang, Yueh-Hua Wu, Min-Hung Chen, Yu-Chiang Frank Wang, Fu-En Yang
cs.AI

Samenvatting

Vision-language-action (VLA) redeneertaken vereisen dat agenten multimodale instructies interpreteren, langetermijnplanning uitvoeren en adaptief handelen in dynamische omgevingen. Bestaande benaderingen trainen VLA-modellen doorgaans end-to-end, waarbij inputs direct worden vertaald naar acties zonder expliciet redeneren, wat hun vermogen beperkt om over meerdere stappen te plannen of zich aan te passen aan complexe taakvariaties. In dit artikel stellen we ThinkAct voor, een dual-systeemraamwerk dat hoogwaardig redeneren verbindt met laagniveau actie-uitvoering via versterkt visueel latent plannen. ThinkAct traint een multimodaal LLM om belichaamde redeneerplannen te genereren die worden geleid door versterkende actie-afgestemde visuele beloningen op basis van doelvoltooiing en trajectconsistentie. Deze redeneerplannen worden gecomprimeerd tot een visueel plan latent dat een downstream actiemodel conditioneert voor robuuste actie-uitvoering in doelomgevingen. Uitgebreide experimenten op benchmarks voor belichaamd redeneren en robotmanipulatie tonen aan dat ThinkAct weinig-voorbeeld-aanpassing, langetermijnplanning en zelfcorrectiegedrag mogelijk maakt in complexe belichaamde AI-taken.
English
Vision-language-action (VLA) reasoning tasks require agents to interpret multimodal instructions, perform long-horizon planning, and act adaptively in dynamic environments. Existing approaches typically train VLA models in an end-to-end fashion, directly mapping inputs to actions without explicit reasoning, which hinders their ability to plan over multiple steps or adapt to complex task variations. In this paper, we propose ThinkAct, a dual-system framework that bridges high-level reasoning with low-level action execution via reinforced visual latent planning. ThinkAct trains a multimodal LLM to generate embodied reasoning plans guided by reinforcing action-aligned visual rewards based on goal completion and trajectory consistency. These reasoning plans are compressed into a visual plan latent that conditions a downstream action model for robust action execution on target environments. Extensive experiments on embodied reasoning and robot manipulation benchmarks demonstrate that ThinkAct enables few-shot adaptation, long-horizon planning, and self-correction behaviors in complex embodied AI tasks.
PDF391July 23, 2025