LARY: Una Representación de Acción Latente que Produce un Punto de Referencia para la Alineación Generalizable Visión-Acción

Resumen

Si bien la escasez de datos de acción explícitos limita a los modelos Visión-Lenguaje-Acción (VLA), los videos de acciones humanas ofrecen una fuente de datos escalable aunque sin etiquetar. Un desafío crítico en la utilización de grandes conjuntos de datos de videos humanos reside en transformar las señales visuales en representaciones independientes de la ontología, conocidas como acciones latentes. Sin embargo, la capacidad de la representación de acciones latentes para derivar un control robusto a partir de observaciones visuales aún no ha sido evaluada rigurosamente. Presentamos el Benchmark de Representación de Acción Latente (LARY), un marco unificado para evaluar representaciones de acciones latentes tanto en acciones semánticas de alto nivel (qué hacer) como en control robótico de bajo nivel (cómo hacerlo). El conjunto de datos, minuciosamente curado, abarca más de un millón de videos (1,000 horas) que abarcan 151 categorías de acción, junto con 620K pares de imágenes y 595K trayectorias de movimiento en diversas materializaciones y entornos. Nuestros experimentos revelan dos conclusiones cruciales: (i) Los modelos visuales fundamentales generales, entrenados sin supervisión de acción alguna, superan consistentemente a los modelos especializados de acción latente corporizada. (ii) El espacio visual basado en representaciones latentes está fundamentalmente mejor alineado con el espacio de acción física que el espacio basado en píxeles. Estos resultados sugieren que las representaciones visuales generales codifican inherentemente conocimiento relevante para la acción destinado al control físico, y que la abstracción a nivel semántico sirve como una vía fundamentalmente más efectiva desde la visión a la acción que la reconstrucción a nivel de píxeles.

English

While the shortage of explicit action data limits Vision-Language-Action (VLA) models, human action videos offer a scalable yet unlabeled data source. A critical challenge in utilizing large-scale human video datasets lies in transforming visual signals into ontology-independent representations, known as latent actions. However, the capacity of latent action representation to derive robust control from visual observations has yet to be rigorously evaluated. We introduce the Latent Action Representation Yielding (LARY) Benchmark, a unified framework for evaluating latent action representations on both high-level semantic actions (what to do) and low-level robotic control (how to do). The comprehensively curated dataset encompasses over one million videos (1,000 hours) spanning 151 action categories, alongside 620K image pairs and 595K motion trajectories across diverse embodiments and environments. Our experiments reveal two crucial insights: (i) General visual foundation models, trained without any action supervision, consistently outperform specialized embodied latent action models. (ii) Latent-based visual space is fundamentally better aligned to physical action space than pixel-based space. These results suggest that general visual representations inherently encode action-relevant knowledge for physical control, and that semantic-level abstraction serves as a fundamentally more effective pathway from vision to action than pixel-level reconstruction.

LARY: Una Representación de Acción Latente que Produce un Punto de Referencia para la Alineación Generalizable Visión-Acción

LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

Resumen

Support