ACoT-VLA: Ragionamento a Catena di Azioni per Modelli Visione-Linguaggio-Azione

Abstract

I modelli Vision-Language-Action (VLA) sono emersi come politiche robotiche generaliste essenziali per compiti di manipolazione diversificati, basandosi convenzionalmente sulla traduzione diretta degli input multimodali in azioni tramite gli embedding di modelli Vision-Language (VLM). Recenti progressi hanno introdotto ragionamenti intermediari espliciti, come la previsione di sotto-compiti (linguaggio) o la sintesi di immagini obiettivo (visione), per guidare la generazione di azioni. Tuttavia, questi ragionamenti intermedi sono spesso indiretti e intrinsecamente limitati nella loro capacità di veicolare le informazioni complete e granulari necessarie per un'esecuzione precisa delle azioni. Al contrario, ipotizziamo che la forma di ragionamento più efficace sia quella che delibera direttamente nello spazio delle azioni. Introduciamo l'Action Chain-of-Thought (ACoT), un paradigma in cui il processo di ragionamento stesso è formulato come una sequenza strutturata di intenzioni d'azione grezze che guidano la politica finale. In questo articolo, proponiamo ACoT-VLA, una nuova architettura che concretizza il paradigma ACoT. Nello specifico, introduciamo due componenti complementari: un Explicit Action Reasoner (EAR) e un Implicit Action Reasoner (IAR). Il primo propone traiettorie di riferimento grezze come passi di ragionamento espliciti a livello di azione, mentre il secondo estrae priorità d'azione latenti dalle rappresentazioni interne dell'input multimodale, co-formando un ACoT che condiziona il modulo di azione a valle per abilitare un apprendimento della politica ancorato alla realtà. Esperimenti estensivi in ambienti reali e di simulazione dimostrano la superiorità del nostro metodo proposto, che raggiunge rispettivamente il 98,5%, l'84,1% e il 47,4% su LIBERO, LIBERO-Plus e VLABench.

English

Vision-Language-Action (VLA) models have emerged as essential generalist robot policies for diverse manipulation tasks, conventionally relying on directly translating multimodal inputs into actions via Vision-Language Model (VLM) embeddings. Recent advancements have introduced explicit intermediary reasoning, such as sub-task prediction (language) or goal image synthesis (vision), to guide action generation. However, these intermediate reasoning are often indirect and inherently limited in their capacity to convey the full, granular information required for precise action execution. Instead, we posit that the most effective form of reasoning is one that deliberates directly in the action space. We introduce Action Chain-of-Thought (ACoT), a paradigm where the reasoning process itself is formulated as a structured sequence of coarse action intents that guide the final policy. In this paper, we propose ACoT-VLA, a novel architecture that materializes the ACoT paradigm. Specifically, we introduce two complementary components: an Explicit Action Reasoner (EAR) and Implicit Action Reasoner (IAR). The former proposes coarse reference trajectories as explicit action-level reasoning steps, while the latter extracts latent action priors from internal representations of multimodal input, co-forming an ACoT that conditions the downstream action head to enable grounded policy learning. Extensive experiments in real-world and simulation environments demonstrate the superiority of our proposed method, which achieves 98.5%, 84.1%, and 47.4% on LIBERO, LIBERO-Plus and VLABench, respectively.

ACoT-VLA: Ragionamento a Catena di Azioni per Modelli Visione-Linguaggio-Azione

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

Abstract

Support