LARY: Uma Representação Latente de Ação que Oferece um Benchmark para Alinhamento Generalizável de Visão para Ação
LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment
April 13, 2026
Autores: Dujun Nie, Fengjiao Chen, Qi Lv, Jun Kuang, Xiaoyu Li, Xuezhi Cao, Xunliang Cai
cs.AI
Resumo
Embora a escassez de dados de ação explícitos limite os modelos Visão-Linguagem-Ação (VLA), os vídeos de ações humanas oferecem uma fonte de dados escalável, ainda que não rotulada. Um desafio crítico na utilização de grandes conjuntos de dados de vídeos humanos reside na transformação de sinais visuais em representações independentes de ontologia, conhecidas como ações latentes. No entanto, a capacidade da representação de ação latente para derivar controle robusto a partir de observações visuais ainda não foi rigorosamente avaliada. Apresentamos o Benchmark de Representação de Ação Latente (LARY), uma estrutura unificada para avaliar representações de ação latente tanto em ações semânticas de alto nível (o que fazer) quanto em controle robótico de baixo nível (como fazer). O conjunto de dados meticulosamente curado abrange mais de um milhão de vídeos (1.000 horas) abrangendo 151 categorias de ação, juntamente com 620 mil pares de imagens e 595 mil trajetórias de movimento em diversas embodiments e ambientes. Nossos experimentos revelam dois insights cruciais: (i) Modelos visuais de base gerais, treinados sem qualquer supervisão de ação, superam consistentemente modelos especializados de ação latente corporificada. (ii) O espaço visual baseado em latentes está fundamentalmente mais alinhado ao espaço de ação física do que o espaço baseado em pixels. Esses resultados sugerem que as representações visuais gerais inerentemente codificam conhecimento relevante para ação para o controle físico, e que a abstração em nível semântico serve como um caminho fundamentalmente mais eficaz da visão para a ação do que a reconstrução em nível de pixel.
English
While the shortage of explicit action data limits Vision-Language-Action (VLA) models, human action videos offer a scalable yet unlabeled data source. A critical challenge in utilizing large-scale human video datasets lies in transforming visual signals into ontology-independent representations, known as latent actions. However, the capacity of latent action representation to derive robust control from visual observations has yet to be rigorously evaluated. We introduce the Latent Action Representation Yielding (LARY) Benchmark, a unified framework for evaluating latent action representations on both high-level semantic actions (what to do) and low-level robotic control (how to do). The comprehensively curated dataset encompasses over one million videos (1,000 hours) spanning 151 action categories, alongside 620K image pairs and 595K motion trajectories across diverse embodiments and environments. Our experiments reveal two crucial insights: (i) General visual foundation models, trained without any action supervision, consistently outperform specialized embodied latent action models. (ii) Latent-based visual space is fundamentally better aligned to physical action space than pixel-based space. These results suggest that general visual representations inherently encode action-relevant knowledge for physical control, and that semantic-level abstraction serves as a fundamentally more effective pathway from vision to action than pixel-level reconstruction.