ChatPaper.aiChatPaper

LARY: 一般化可能な視覚-行動連携のための潜在行動表現ベンチマーク

LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

April 13, 2026
著者: Dujun Nie, Fengjiao Chen, Qi Lv, Jun Kuang, Xiaoyu Li, Xuezhi Cao, Xunliang Cai
cs.AI

要旨

明示的な行動データの不足がVision-Language-Action(VLA)モデルの課題である一方で、人間の行動ビデオはスケーラブルながらラベル付けされていないデータ源を提供する。大規模な人間行動ビデオデータセットを活用する上での核心的課題は、視覚信号をオントロジーに依存しない表現、すなわち潜在行動へ変換することにある。しかし、視覚観測からロバストな制御を導出するための潜在行動表現の能力は、未だ厳密に評価されていない。本研究では、潜在行動表現を高次元の意味的行動(何をすべきか)と低次元のロボット制御(どのようにすべきか)の両面で評価する統一フレームワークであるLatent Action Representation Yielding(LARY)ベンチマークを提案する。厳選されたデータセットは、151の行動カテゴリーにわたる100万本以上のビデオ(1,000時間)、ならびに多様な身体性と環境にまたがる62万組の画像ペアと59万5千の動作軌道を含む。実験結果から二つの重要な知見が得られた:(i)行動監督なしで学習された一般的な視覚基盤モデルは、特殊な具身化潜在行動モデルを一貫して上回る。(ii)潜在ベースの視覚空間は、画素ベースの空間よりも物理的行動空間との根本的な整合性が高い。これらの結果は、一般的な視覚表現が物理制御に必要な行動関連知識を内在的に符号化しており、意味レベルの抽象化が、画素レベルの再構築よりも視覚から行動への根本的に効果的な経路であることを示唆する。
English
While the shortage of explicit action data limits Vision-Language-Action (VLA) models, human action videos offer a scalable yet unlabeled data source. A critical challenge in utilizing large-scale human video datasets lies in transforming visual signals into ontology-independent representations, known as latent actions. However, the capacity of latent action representation to derive robust control from visual observations has yet to be rigorously evaluated. We introduce the Latent Action Representation Yielding (LARY) Benchmark, a unified framework for evaluating latent action representations on both high-level semantic actions (what to do) and low-level robotic control (how to do). The comprehensively curated dataset encompasses over one million videos (1,000 hours) spanning 151 action categories, alongside 620K image pairs and 595K motion trajectories across diverse embodiments and environments. Our experiments reveal two crucial insights: (i) General visual foundation models, trained without any action supervision, consistently outperform specialized embodied latent action models. (ii) Latent-based visual space is fundamentally better aligned to physical action space than pixel-based space. These results suggest that general visual representations inherently encode action-relevant knowledge for physical control, and that semantic-level abstraction serves as a fundamentally more effective pathway from vision to action than pixel-level reconstruction.
PDF71April 16, 2026