ACoT-VLA: Cadeia de Raciocínio de Ação para Modelos Visão-Linguagem-Ação

Resumo

Os modelos Visão-Linguagem-Ação (VLA) emergiram como políticas robóticas generalistas essenciais para diversas tarefas de manipulação, baseando-se convencionalmente na tradução direta de entradas multimodais em ações por meio de incorporações de Modelos de Linguagem de Visão (VLM). Avanços recentes introduziram raciocínio intermediário explícito, como previsão de subtarefas (linguagem) ou síntese de imagens-alvo (visão), para orientar a geração de ações. No entanto, esses raciocínios intermediários são frequentemente indiretos e intrinsecamente limitados em sua capacidade de transmitir a informação completa e granular necessária para uma execução precisa de ações. Em vez disso, postulamos que a forma mais eficaz de raciocínio é aquela que delibera diretamente no espaço de ação. Introduzimos o Action Chain-of-Thought (ACoT), um paradigma no qual o próprio processo de raciocínio é formulado como uma sequência estruturada de intenções de ação grosseiras que orientam a política final. Neste artigo, propomos o ACoT-VLA, uma nova arquitetura que materializa o paradigma ACoT. Especificamente, introduzimos dois componentes complementares: um Explicit Action Reasoner (EAR) e um Implicit Action Reasoner (IAR). O primeiro propõe trajetórias de referência grosseiras como etapas explícitas de raciocínio no nível da ação, enquanto o último extrai prévios de ação latentes das representações internas da entrada multimodal, co-formando um ACoT que condiciona o módulo de ação subsequente para permitir uma aprendizagem de política fundamentada. Experimentos extensos em ambientes do mundo real e de simulação demonstram a superioridade do nosso método proposto, que atinge 98,5%, 84,1% e 47,4% no LIBERO, LIBERO-Plus e VLABench, respectivamente.

English

Vision-Language-Action (VLA) models have emerged as essential generalist robot policies for diverse manipulation tasks, conventionally relying on directly translating multimodal inputs into actions via Vision-Language Model (VLM) embeddings. Recent advancements have introduced explicit intermediary reasoning, such as sub-task prediction (language) or goal image synthesis (vision), to guide action generation. However, these intermediate reasoning are often indirect and inherently limited in their capacity to convey the full, granular information required for precise action execution. Instead, we posit that the most effective form of reasoning is one that deliberates directly in the action space. We introduce Action Chain-of-Thought (ACoT), a paradigm where the reasoning process itself is formulated as a structured sequence of coarse action intents that guide the final policy. In this paper, we propose ACoT-VLA, a novel architecture that materializes the ACoT paradigm. Specifically, we introduce two complementary components: an Explicit Action Reasoner (EAR) and Implicit Action Reasoner (IAR). The former proposes coarse reference trajectories as explicit action-level reasoning steps, while the latter extracts latent action priors from internal representations of multimodal input, co-forming an ACoT that conditions the downstream action head to enable grounded policy learning. Extensive experiments in real-world and simulation environments demonstrate the superiority of our proposed method, which achieves 98.5%, 84.1%, and 47.4% on LIBERO, LIBERO-Plus and VLABench, respectively.

ACoT-VLA: Cadeia de Raciocínio de Ação para Modelos Visão-Linguagem-Ação

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

Resumo

Support