LARY: Скрытое представление действий, обеспечивающее эталон для обобщаемого согласования «зрение-действие»
LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment
April 13, 2026
Авторы: Dujun Nie, Fengjiao Chen, Qi Lv, Jun Kuang, Xiaoyu Li, Xuezhi Cao, Xunliang Cai
cs.AI
Аннотация
Хотя нехватка явных данных о действиях ограничивает модели «Видение-Язык-Действие» (VLA), видеозаписи человеческих действий представляют собой масштабируемый, хотя и неразмеченный источник данных. Ключевая проблема использования крупномасштабных видеонаборов с человеческими действиями заключается в преобразовании визуальных сигналов в независимые от онтологии представления, известные как латентные действия. Однако способность латентного представления действий обеспечивать надежное управление на основе визуальных наблюдений еще не подвергалась строгой оценке. Мы представляем эталонный тест LARY — унифицированную структуру для оценки латентных представлений действий как на уровне семантических действий высокого уровня (что делать), так и на уровне низкоуровневого роботизированного управления (как делать). Тщательно отобранный набор данных включает более миллиона видео (1000 часов), охватывающих 151 категорию действий, а также 620 тысяч пар изображений и 595 тысяч траекторий движений в различных воплощениях и средах. Наши эксперименты выявляют два ключевых вывода: (i) Общие визуальные базовые модели, обученные без какого-либо контроля действий, последовательно превосходят специализированные модели латентных действий для воплощенных систем. (ii) Латентное визуальное пространство фундаментально лучше согласовано с физическим пространством действий, чем пиксельное пространство. Эти результаты позволяют предположить, что общие визуальные представления изначально кодируют знание, релевантное действиям для физического управления, и что семантическая абстракция служит принципиально более эффективным путем от зрения к действию, чем пиксельная реконструкция.
English
While the shortage of explicit action data limits Vision-Language-Action (VLA) models, human action videos offer a scalable yet unlabeled data source. A critical challenge in utilizing large-scale human video datasets lies in transforming visual signals into ontology-independent representations, known as latent actions. However, the capacity of latent action representation to derive robust control from visual observations has yet to be rigorously evaluated. We introduce the Latent Action Representation Yielding (LARY) Benchmark, a unified framework for evaluating latent action representations on both high-level semantic actions (what to do) and low-level robotic control (how to do). The comprehensively curated dataset encompasses over one million videos (1,000 hours) spanning 151 action categories, alongside 620K image pairs and 595K motion trajectories across diverse embodiments and environments. Our experiments reveal two crucial insights: (i) General visual foundation models, trained without any action supervision, consistently outperform specialized embodied latent action models. (ii) Latent-based visual space is fundamentally better aligned to physical action space than pixel-based space. These results suggest that general visual representations inherently encode action-relevant knowledge for physical control, and that semantic-level abstraction serves as a fundamentally more effective pathway from vision to action than pixel-level reconstruction.