LARY: 일반화 가능한 비전-행동 정렬을 위한 잠재 행동 표현 벤치마크
LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment
April 13, 2026
저자: Dujun Nie, Fengjiao Chen, Qi Lv, Jun Kuang, Xiaoyu Li, Xuezhi Cao, Xunliang Cai
cs.AI
초록
명시적 행동 데이터의 부족은 Vision-Language-Action(VLA) 모델의 발전을 제한하지만, 인간 행동 영상은 확장 가능한 비지도 데이터 원천을 제공합니다. 대규모 인간 영상 데이터셋 활용의 핵심 과제는 시각 신호를 온톨로지 독립적 표현, 즉 잠재 행동으로 변환하는 데 있습니다. 그러나 시각 관측으로부터 강건한 제어를 도출하는 잠재 행동 표현의 능력은 아직 엄격하게 평가되지 않았습니다. 본 연구는 높은 수준의 의미론적 행동(무엇을 할 것인가)과 낮은 수준의 로봇 제어(어떻게 할 것인가) 모두에 대해 잠재 행동 표현을 평가하는 통합 프레임워크인 Latent Action Representation Yielding(LARY) 벤치마크를 소개합니다. 정성적으로 구축된 이 데이터셋은 151개 행동 범주에 걸친 100만 개 이상의 영상(1,000시간)과 다양한 구현체 및 환경에서 수집된 62만 개의 이미지 쌍, 59만 5천 개의 운동 궤적을 포함합니다. 우리의 실험은 두 가지 중요한 통찰을 보여줍니다: (i) 행동 감독 없이 훈련된 일반 시각 기초 모델이 전문적인 구현체 잠재 행동 모델보다 지속적으로 우수한 성능을 보인다. (ii) 잠재 기반 시각 공간은 픽셀 기반 공간보다 물리적 행동 공간과 근본적으로 더 잘 정렬되어 있다. 이러한 결과는 일반 시각 표현이 물리적 제어에 필요한 행동 관련 지식을 본질적으로 인코딩하며, 의미론적 수준의 추상화가 픽셀 수준 재구성보다 시각에서 행동으로 가는 근본적으로 더 효과적인 경로임을 시사합니다.
English
While the shortage of explicit action data limits Vision-Language-Action (VLA) models, human action videos offer a scalable yet unlabeled data source. A critical challenge in utilizing large-scale human video datasets lies in transforming visual signals into ontology-independent representations, known as latent actions. However, the capacity of latent action representation to derive robust control from visual observations has yet to be rigorously evaluated. We introduce the Latent Action Representation Yielding (LARY) Benchmark, a unified framework for evaluating latent action representations on both high-level semantic actions (what to do) and low-level robotic control (how to do). The comprehensively curated dataset encompasses over one million videos (1,000 hours) spanning 151 action categories, alongside 620K image pairs and 595K motion trajectories across diverse embodiments and environments. Our experiments reveal two crucial insights: (i) General visual foundation models, trained without any action supervision, consistently outperform specialized embodied latent action models. (ii) Latent-based visual space is fundamentally better aligned to physical action space than pixel-based space. These results suggest that general visual representations inherently encode action-relevant knowledge for physical control, and that semantic-level abstraction serves as a fundamentally more effective pathway from vision to action than pixel-level reconstruction.