ChatPaper.aiChatPaper

ThinkAct: Рассуждения "Видение-Язык-Действие" через усиленное планирование в визуальном латентном пространстве

ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning

July 22, 2025
Авторы: Chi-Pin Huang, Yueh-Hua Wu, Min-Hung Chen, Yu-Chiang Frank Wang, Fu-En Yang
cs.AI

Аннотация

Задачи рассуждений на основе зрения, языка и действий (Vision-Language-Action, VLA) требуют от агентов интерпретации мультимодальных инструкций, выполнения долгосрочного планирования и адаптивного поведения в динамических средах. Существующие подходы обычно обучают VLA-модели сквозным образом, напрямую отображая входные данные в действия без явного рассуждения, что ограничивает их способность планировать на несколько шагов вперед или адаптироваться к сложным вариациям задач. В данной статье мы предлагаем ThinkAct — двухуровневую архитектуру, которая связывает высокоуровневые рассуждения с низкоуровневым выполнением действий через усиленное визуальное латентное планирование. ThinkAct обучает мультимодальную языковую модель (LLM) генерировать планы воплощенных рассуждений, направляемые визуальными наградами, согласованными с действиями и основанными на завершении цели и согласованности траектории. Эти планы рассуждений сжимаются в визуальный латентный план, который управляет последующей моделью действий для надежного выполнения задач в целевых средах. Многочисленные эксперименты на тестах воплощенных рассуждений и манипуляций роботов демонстрируют, что ThinkAct обеспечивает адаптацию с малым количеством примеров, долгосрочное планирование и способность к самокоррекции в сложных задачах воплощенного ИИ.
English
Vision-language-action (VLA) reasoning tasks require agents to interpret multimodal instructions, perform long-horizon planning, and act adaptively in dynamic environments. Existing approaches typically train VLA models in an end-to-end fashion, directly mapping inputs to actions without explicit reasoning, which hinders their ability to plan over multiple steps or adapt to complex task variations. In this paper, we propose ThinkAct, a dual-system framework that bridges high-level reasoning with low-level action execution via reinforced visual latent planning. ThinkAct trains a multimodal LLM to generate embodied reasoning plans guided by reinforcing action-aligned visual rewards based on goal completion and trajectory consistency. These reasoning plans are compressed into a visual plan latent that conditions a downstream action model for robust action execution on target environments. Extensive experiments on embodied reasoning and robot manipulation benchmarks demonstrate that ThinkAct enables few-shot adaptation, long-horizon planning, and self-correction behaviors in complex embodied AI tasks.
PDF271July 23, 2025