ChatPaper.aiChatPaper

ACoT-VLA: 비전-언어-행동 모델을 위한 행동 사고 연쇄

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

January 16, 2026
저자: Linqing Zhong, Yi Liu, Yifei Wei, Ziyu Xiong, Maoqing Yao, Si Liu, Guanghui Ren
cs.AI

초록

비전-언어-행동(VLA) 모델은 다양한 조작 작업을 위한 핵심 일반 로봇 정책으로 부상했으며, 기존에는 비전-언어 모델(VLM) 임베딩을 통해 다중 모드 입력을 직접 행동으로 변환하는 방식에 의존해왔습니다. 최근 발전으로는 하위 작업 예측(언어)이나 목표 이미지 합성(비전)과 같은 명시적 중간 추론을 도입하여 행동 생성을 안내하는 접근법이 등장했습니다. 그러나 이러한 중간 추론은 종종 간접적이며 정밀한 행동 실행에 필요한 세분화된 전체 정보를 전달하는 데 본질적인 한계가 있습니다. 이에 우리는 가장 효과적인 추론 형태는 행동 공간에서 직접 고려하는 것이라고 주장합니다. 우리는 최종 정책을 안내하는 구조화된 coarse 행동 의도 시퀀스로 추론 과정 자체를 구성하는 패러다임인 Action Chain-of-Thought(ACoT)를 소개합니다. 본 논문에서는 ACoT 패러다임을 구현하는 새로운 아키텍처인 ACoT-VLA를 제안합니다. 구체적으로, 우리는 상호 보완적인 두 가지 구성 요소인 명시적 행동 추론기(EAR)와 암묵적 행동 추론기(IAR)를 도입합니다. 전자는 명시적 행동 수준 추론 단계로서 coarse 참조 궤적을 제안하고, 후자는 다중 모드 입력의 내부 표현에서 잠재적 행동 사전 정보를 추출하여, 접지된 정책 학습을 가능하게 하는 하위 행동 헤드를 조건화하는 ACoT를 공동으로 형성합니다. 실제 환경과 시뮬레이션 환경에서의 광범위한 실험을 통해 우리가 제안한 방법의 우수성을 입증하였으며, 각각 LIBERO에서 98.5%, LIBERO-Plus에서 84.1%, VLABench에서 47.4%의 성능을 달성했습니다.
English
Vision-Language-Action (VLA) models have emerged as essential generalist robot policies for diverse manipulation tasks, conventionally relying on directly translating multimodal inputs into actions via Vision-Language Model (VLM) embeddings. Recent advancements have introduced explicit intermediary reasoning, such as sub-task prediction (language) or goal image synthesis (vision), to guide action generation. However, these intermediate reasoning are often indirect and inherently limited in their capacity to convey the full, granular information required for precise action execution. Instead, we posit that the most effective form of reasoning is one that deliberates directly in the action space. We introduce Action Chain-of-Thought (ACoT), a paradigm where the reasoning process itself is formulated as a structured sequence of coarse action intents that guide the final policy. In this paper, we propose ACoT-VLA, a novel architecture that materializes the ACoT paradigm. Specifically, we introduce two complementary components: an Explicit Action Reasoner (EAR) and Implicit Action Reasoner (IAR). The former proposes coarse reference trajectories as explicit action-level reasoning steps, while the latter extracts latent action priors from internal representations of multimodal input, co-forming an ACoT that conditions the downstream action head to enable grounded policy learning. Extensive experiments in real-world and simulation environments demonstrate the superiority of our proposed method, which achieves 98.5%, 84.1%, and 47.4% on LIBERO, LIBERO-Plus and VLABench, respectively.
PDF182January 20, 2026