LARY: Una rappresentazione latente delle azioni che fornisce un benchmark per l'allineamento generalizzabile visione-azione

Abstract

Sebbene la carenza di dati d'azione espliciti limiti i modelli Visione-Linguaggio-Azione (VLA), i video di azioni umane rappresentano una fonte di dati scalabile sebbene non etichettata. Una sfida cruciale nell'utilizzo di grandi dataset video umani risiede nel trasformare i segnali visivi in rappresentazioni indipendenti dall'ontologia, denominate azioni latenti. Tuttavia, la capacità della rappresentazione di azioni latenti di derivare un controllo robusto da osservazioni visive deve ancora essere valutata rigorosamente. Introduciamo il Benchmark LARY (Latent Action Representation Yielding), un framework unificato per valutare le rappresentazioni di azioni latenti sia su azioni semantiche di alto livello (cosa fare) che sul controllo robotico di basso livello (come farlo). Il dataset accuratamente curato comprende oltre un milione di video (1.000 ore) che coprono 151 categorie di azioni, insieme a 620K coppie di immagini e 595K traiettorie di movimento attraverso diverse embodiment e ambienti. I nostri esperimenti rivelano due intuizioni cruciali: (i) Modelli visivi foundation generali, addestrati senza alcuna supervisione di azione, superano costantemente modelli specializzati di azioni latenti embodied. (ii) Lo spazio visivo basato su latenti è fondamentalmente più allineato allo spazio d'azione fisica rispetto allo spazio basato su pixel. Questi risultati suggeriscono che le rappresentazioni visive generali codificano intrinsecamente conoscenze rilevanti per l'azione per il controllo fisico, e che l'astrazione a livello semantico costituisce un percorso fondamentalmente più efficace dalla visione all'azione rispetto alla ricostruzione a livello di pixel.

English

While the shortage of explicit action data limits Vision-Language-Action (VLA) models, human action videos offer a scalable yet unlabeled data source. A critical challenge in utilizing large-scale human video datasets lies in transforming visual signals into ontology-independent representations, known as latent actions. However, the capacity of latent action representation to derive robust control from visual observations has yet to be rigorously evaluated. We introduce the Latent Action Representation Yielding (LARY) Benchmark, a unified framework for evaluating latent action representations on both high-level semantic actions (what to do) and low-level robotic control (how to do). The comprehensively curated dataset encompasses over one million videos (1,000 hours) spanning 151 action categories, alongside 620K image pairs and 595K motion trajectories across diverse embodiments and environments. Our experiments reveal two crucial insights: (i) General visual foundation models, trained without any action supervision, consistently outperform specialized embodied latent action models. (ii) Latent-based visual space is fundamentally better aligned to physical action space than pixel-based space. These results suggest that general visual representations inherently encode action-relevant knowledge for physical control, and that semantic-level abstraction serves as a fundamentally more effective pathway from vision to action than pixel-level reconstruction.

LARY: Una rappresentazione latente delle azioni che fornisce un benchmark per l'allineamento generalizzabile visione-azione

LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

Abstract

Support