ChatPaper.aiChatPaper

ACoT-VLA: Action Chain-of-Thought für Vision-Language-Action-Modelle

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

January 16, 2026
papers.authors: Linqing Zhong, Yi Liu, Yifei Wei, Ziyu Xiong, Maoqing Yao, Si Liu, Guanghui Ren
cs.AI

papers.abstract

Vision-Language-Action (VLA)-Modelle haben sich als wesentliche allgemeine Roboter-Policies für verschiedene Manipulationsaufgaben etabliert, die konventionell auf der direkten Übersetzung multimodaler Eingaben in Aktionen über Vision-Language-Model (VLM)-Embeddings beruhen. Jüngste Fortschritte haben explizite Zwischenreasoning-Verfahren eingeführt, wie z.B. die Vorhersage von Teilaufgaben (Sprache) oder die Synthese von Zielbildern (Vision), um die Aktionsgenerierung zu steuern. Diese Zwischenreasoning-Ansätze sind jedoch oft indirekt und inhärent in ihrer Fähigkeit begrenzt, die vollständigen, granularen Informationen zu vermitteln, die für eine präzise Aktionsausführung erforderlich sind. Stattdessen postulieren wir, dass die effektivste Form des Reasonings eine ist, die direkt im Aktionsraum abläuft. Wir führen Action Chain-of-Thought (ACoT) ein, ein Paradigma, bei dem der Reasoning-Prozess selbst als strukturierte Abfolge grober Aktionsabsichten formuliert wird, die die finale Policy steuern. In diesem Artikel schlagen wir ACoT-VLA vor, eine neuartige Architektur, die das ACoT-Paradigma umsetzt. Konkret führen wir zwei komplementäre Komponenten ein: einen Expliziten Action Reasoner (EAR) und einen Impliziten Action Reasoner (IAR). Ersterer schlägt grobe Referenztrajektorien als explizite Reasoning-Schritte auf Aktionsebene vor, während Letzterer latente Aktions-Priors aus internen Repräsentationen der multimodalen Eingabe extrahiert. Gemeinsam bilden sie einen ACoT, der den nachgeschalteten Aktions-Kopf konditioniert, um ein fundiertes Policy-Lernen zu ermöglichen. Umfangreiche Experimente in realen und simulierten Umgebungen demonstrieren die Überlegenheit unserer vorgeschlagenen Methode, die auf LIBERO, LIBERO-Plus bzw. VLABench 98,5 %, 84,1 % und 47,4 % erreicht.
English
Vision-Language-Action (VLA) models have emerged as essential generalist robot policies for diverse manipulation tasks, conventionally relying on directly translating multimodal inputs into actions via Vision-Language Model (VLM) embeddings. Recent advancements have introduced explicit intermediary reasoning, such as sub-task prediction (language) or goal image synthesis (vision), to guide action generation. However, these intermediate reasoning are often indirect and inherently limited in their capacity to convey the full, granular information required for precise action execution. Instead, we posit that the most effective form of reasoning is one that deliberates directly in the action space. We introduce Action Chain-of-Thought (ACoT), a paradigm where the reasoning process itself is formulated as a structured sequence of coarse action intents that guide the final policy. In this paper, we propose ACoT-VLA, a novel architecture that materializes the ACoT paradigm. Specifically, we introduce two complementary components: an Explicit Action Reasoner (EAR) and Implicit Action Reasoner (IAR). The former proposes coarse reference trajectories as explicit action-level reasoning steps, while the latter extracts latent action priors from internal representations of multimodal input, co-forming an ACoT that conditions the downstream action head to enable grounded policy learning. Extensive experiments in real-world and simulation environments demonstrate the superiority of our proposed method, which achieves 98.5%, 84.1%, and 47.4% on LIBERO, LIBERO-Plus and VLABench, respectively.
PDF182January 20, 2026