ChatPaper.aiChatPaper

ACoT-VLA: 視覚言語行動モデルのための行動チェインオブソート

ACoT-VLA: Action Chain-of-Thought for Vision-Language-Action Models

January 16, 2026
著者: Linqing Zhong, Yi Liu, Yifei Wei, Ziyu Xiong, Maoqing Yao, Si Liu, Guanghui Ren
cs.AI

要旨

Vision-Language-Action (VLA) モデルは、多様なマニピュレーションタスクにおける汎用的なロボットポリシーとして登場し、従来は Vision-Language Model (VLM) の埋め込みを介してマルチモーダル入力を直接行動に変換することに依存してきた。近年の進歩では、サブタスク予測(言語)や目標画像合成(視覚)などの明示的な中間推論を導入し、行動生成を誘導する手法が現れている。しかし、これらの中間推論はしばしば間接的であり、精密な行動実行に必要な詳細な情報全体を伝達する能力が本質的に限られている。我々は、最も効果的な推論形式は、行動空間において直接的に熟考するものであると主張する。本論文では、推論プロセス自体が最終的なポリシーを誘導する構造化された粗い行動意図の連鎖として定式化されるパラダイムである Action Chain-of-Thought (ACoT) を提案する。我々は、このACoTパラダイムを具体化する新しいアーキテクチャであるACoT-VLAを提案する。具体的には、明示的行動推論器 (Explicit Action Reasoner: EAR) と暗黙的行動推論器 (Implicit Action Reasoner: IAR) という二つの相補的なコンポーネントを導入する。前者は明示的な行動レベルの推論ステップとして粗い参照軌道を提案し、後者はマルチモーダル入力の内部表現から潜在的な行動事前分布を抽出する。これらが共同してACoTを形成し、下流の行動ヘッドを条件付け、接地されたポリシー学習を可能にする。実世界およびシミュレーション環境における大規模な実験により、提案手法の優位性が実証され、LIBERO、LIBERO-Plus、VLABenchにおいてそれぞれ98.5%、84.1%、47.4%を達成した。
English
Vision-Language-Action (VLA) models have emerged as essential generalist robot policies for diverse manipulation tasks, conventionally relying on directly translating multimodal inputs into actions via Vision-Language Model (VLM) embeddings. Recent advancements have introduced explicit intermediary reasoning, such as sub-task prediction (language) or goal image synthesis (vision), to guide action generation. However, these intermediate reasoning are often indirect and inherently limited in their capacity to convey the full, granular information required for precise action execution. Instead, we posit that the most effective form of reasoning is one that deliberates directly in the action space. We introduce Action Chain-of-Thought (ACoT), a paradigm where the reasoning process itself is formulated as a structured sequence of coarse action intents that guide the final policy. In this paper, we propose ACoT-VLA, a novel architecture that materializes the ACoT paradigm. Specifically, we introduce two complementary components: an Explicit Action Reasoner (EAR) and Implicit Action Reasoner (IAR). The former proposes coarse reference trajectories as explicit action-level reasoning steps, while the latter extracts latent action priors from internal representations of multimodal input, co-forming an ACoT that conditions the downstream action head to enable grounded policy learning. Extensive experiments in real-world and simulation environments demonstrate the superiority of our proposed method, which achieves 98.5%, 84.1%, and 47.4% on LIBERO, LIBERO-Plus and VLABench, respectively.
PDF182January 20, 2026