ChatPaper.aiChatPaper

LARY: Eine latente Aktionsrepräsentation, die einen Benchmark für generalisierbare Vision-Aktions-Abgleichbarkeit liefert

LARY: A Latent Action Representation Yielding Benchmark for Generalizable Vision-to-Action Alignment

April 13, 2026
Autoren: Dujun Nie, Fengjiao Chen, Qi Lv, Jun Kuang, Xiaoyu Li, Xuezhi Cao, Xunliang Cai
cs.AI

Zusammenfassung

Während der Mangel an expliziten Aktionsdaten Vision-Language-Action (VLA)-Modelle einschränkt, bieten menschliche Aktionsvideos eine skalierbare, jedoch ungelabelte Datenquelle. Eine zentrale Herausforderung bei der Nutzung groß angelegter menschlicher Videodatensätze besteht darin, visuelle Signale in ontologieunabhängige Repräsentationen, sogenannte latente Aktionen, umzuwandeln. Die Fähigkeit latenter Aktionsrepräsentationen, robuste Steuerung aus visuellen Beobachtungen abzuleiten, wurde jedoch noch nicht rigoros evaluiert. Wir stellen den Latent Action Representation Yielding (LARY) Benchmark vor, einen einheitlichen Rahmen zur Bewertung latenter Aktionsrepräsentationen für sowohl hochlevelige semantische Aktionen (was zu tun ist) als auch low-level Robotersteuerung (wie es zu tun ist). Der umfassend kuratierte Datensatz umfasst über eine Million Videos (1.000 Stunden) aus 151 Aktionskategorien sowie 620.000 Bildpaare und 595.000 Bewegungstrajektorien über verschiedene Embodiments und Umgebungen hinweg. Unsere Experimente zeigen zwei entscheidende Erkenntnisse: (i) Allgemeine visuelle Foundation-Modelle, die ohne jegliche Aktionsaufsicht trainiert wurden, übertreffen spezialisierte embodied latente Aktionsmodelle durchgängig. (ii) Der latente-basierte visuelle Raum ist dem physikalischen Aktionsraum fundamental stärker zugeordnet als der pixelbasierte Raum. Diese Ergebnisse legen nahe, dass allgemeine visuelle Repräsentationen inhärent aktionsrelevantes Wissen für physikalische Steuerung kodieren und dass semantische Abstraktion einen fundamental effektiveren Pfad von Vision zu Aktion darstellt als pixelbasierte Rekonstruktion.
English
While the shortage of explicit action data limits Vision-Language-Action (VLA) models, human action videos offer a scalable yet unlabeled data source. A critical challenge in utilizing large-scale human video datasets lies in transforming visual signals into ontology-independent representations, known as latent actions. However, the capacity of latent action representation to derive robust control from visual observations has yet to be rigorously evaluated. We introduce the Latent Action Representation Yielding (LARY) Benchmark, a unified framework for evaluating latent action representations on both high-level semantic actions (what to do) and low-level robotic control (how to do). The comprehensively curated dataset encompasses over one million videos (1,000 hours) spanning 151 action categories, alongside 620K image pairs and 595K motion trajectories across diverse embodiments and environments. Our experiments reveal two crucial insights: (i) General visual foundation models, trained without any action supervision, consistently outperform specialized embodied latent action models. (ii) Latent-based visual space is fundamentally better aligned to physical action space than pixel-based space. These results suggest that general visual representations inherently encode action-relevant knowledge for physical control, and that semantic-level abstraction serves as a fundamentally more effective pathway from vision to action than pixel-level reconstruction.
PDF71April 16, 2026