LARY : Un benchmark de représentation latente d'actions pour l'alignement généralisable vision-action

Résumé

Bien que le manque de données d'action explicites limite les modèles Vision-Langage-Action (VLA), les vidéos d'actions humaines constituent une source de données évolutive bien que non labellisée. Un défi majeur dans l'utilisation de jeux de données vidéo humains à grande échelle réside dans la transformation des signaux visuels en représentations indépendantes de l'ontologie, appelées actions latentes. Cependant, la capacité de la représentation d'action latente à dériver un contrôle robuste à partir d'observations visuelles n'a pas encore été rigoureusement évaluée. Nous présentons le benchmark LARY (Latent Action Representation Yielding), un cadre unifié pour évaluer les représentations d'actions latentes sur les actions sémantiques de haut niveau (quoi faire) et le contrôle robotique de bas niveau (comment faire). Le jeu de données soigneusement constitué comprend plus d'un million de vidéos (1 000 heures) couvrant 151 catégories d'actions, ainsi que 620 000 paires d'images et 595 000 trajectoires de mouvement à travers diverses embodiments et environnements. Nos expériences révèlent deux insights cruciaux : (i) Les modèles de fondation visuelle généraux, entraînés sans aucune supervision d'action, surpassent systématiquement les modèles spécialisés d'actions latentes incarnées. (ii) L'espace visuel latent est fondamentalement mieux aligné sur l'espace d'action physique que l'espace basé sur les pixels. Ces résultats suggèrent que les représentations visuelles générales encodent intrinsèquement des connaissances pertinentes pour l'action en vue d'un contrôle physique, et que l'abstraction au niveau sémantique constitue une voie fondamentalement plus efficace de la vision à l'action que la reconstruction au niveau pixel.

English

While the shortage of explicit action data limits Vision-Language-Action (VLA) models, human action videos offer a scalable yet unlabeled data source. A critical challenge in utilizing large-scale human video datasets lies in transforming visual signals into ontology-independent representations, known as latent actions. However, the capacity of latent action representation to derive robust control from visual observations has yet to be rigorously evaluated. We introduce the Latent Action Representation Yielding (LARY) Benchmark, a unified framework for evaluating latent action representations on both high-level semantic actions (what to do) and low-level robotic control (how to do). The comprehensively curated dataset encompasses over one million videos (1,000 hours) spanning 151 action categories, alongside 620K image pairs and 595K motion trajectories across diverse embodiments and environments. Our experiments reveal two crucial insights: (i) General visual foundation models, trained without any action supervision, consistently outperform specialized embodied latent action models. (ii) Latent-based visual space is fundamentally better aligned to physical action space than pixel-based space. These results suggest that general visual representations inherently encode action-relevant knowledge for physical control, and that semantic-level abstraction serves as a fundamentally more effective pathway from vision to action than pixel-level reconstruction.

LARY : Un benchmark de représentation latente d'actions pour l'alignement généralisable vision-action

LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

Résumé

Support