ChatPaper.aiChatPaper

ACoT-VLA : Action Chaîne de Raisonnement pour les Modèles Vision-Langage-Action

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

January 16, 2026
papers.authors: Linqing Zhong, Yi Liu, Yifei Wei, Ziyu Xiong, Maoqing Yao, Si Liu, Guanghui Ren
cs.AI

papers.abstract

Les modèles Vision-Langage-Action (VLA) sont devenus des politiques robotiques généralistes essentielles pour diverses tâches de manipulation, reposant classiquement sur la traduction directe des entrées multimodales en actions via les plongements de modèles vision-langage (VLM). Des avancées récentes ont introduit un raisonnement intermédiaire explicite, tel que la prédiction de sous-tâches (langage) ou la synthèse d'images but (vision), pour guider la génération d'actions. Cependant, ces raisonnements intermédiaires sont souvent indirects et intrinsèquement limités dans leur capacité à transmettre l'information granulaire complète nécessaire à une exécution d'action précise. Nous postulons plutôt que la forme de raisonnement la plus efficace est celle qui délibère directement dans l'espace d'action. Nous introduisons l'Action Chain-of-Thought (ACoT), un paradigme où le processus de raisonnement lui-même est formulé comme une séquence structurée d'intentions d'action grossières qui guide la politique finale. Dans cet article, nous proposons ACoT-VLA, une nouvelle architecture qui matérialise le paradigme ACoT. Plus précisément, nous introduisons deux composants complémentaires : un Raisonneur d'Action Explicite (EAR) et un Raisonneur d'Action Implicite (IAR). Le premier propose des trajectoires de référence grossières comme étapes de raisonnement explicites au niveau de l'action, tandis que le second extrait des préalables d'action latents des représentations internes de l'entrée multimodale, co-formant un ACoT qui conditionne la tête d'action en aval pour permettre un apprentissage de politique ancré. Des expériences approfondies dans des environnements réels et de simulation démontrent la supériorité de notre méthode proposée, qui atteint respectivement 98,5 %, 84,1 % et 47,4 % sur LIBERO, LIBERO-Plus et VLABench.
English
Vision-Language-Action (VLA) models have emerged as essential generalist robot policies for diverse manipulation tasks, conventionally relying on directly translating multimodal inputs into actions via Vision-Language Model (VLM) embeddings. Recent advancements have introduced explicit intermediary reasoning, such as sub-task prediction (language) or goal image synthesis (vision), to guide action generation. However, these intermediate reasoning are often indirect and inherently limited in their capacity to convey the full, granular information required for precise action execution. Instead, we posit that the most effective form of reasoning is one that deliberates directly in the action space. We introduce Action Chain-of-Thought (ACoT), a paradigm where the reasoning process itself is formulated as a structured sequence of coarse action intents that guide the final policy. In this paper, we propose ACoT-VLA, a novel architecture that materializes the ACoT paradigm. Specifically, we introduce two complementary components: an Explicit Action Reasoner (EAR) and Implicit Action Reasoner (IAR). The former proposes coarse reference trajectories as explicit action-level reasoning steps, while the latter extracts latent action priors from internal representations of multimodal input, co-forming an ACoT that conditions the downstream action head to enable grounded policy learning. Extensive experiments in real-world and simulation environments demonstrate the superiority of our proposed method, which achieves 98.5%, 84.1%, and 47.4% on LIBERO, LIBERO-Plus and VLABench, respectively.
PDF182January 20, 2026