ChatPaper.aiChatPaper

Анатомия моделей "зрение-язык-действие": от модулей к вехам и вызовам

An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges

December 12, 2025
Авторы: Chao Xu, Suyu Zhang, Yang Liu, Baigui Sun, Weihong Chen, Bo Xu, Qi Liu, Juncheng Wang, Shujun Wang, Shan Luo, Jan Peters, Athanasios V. Vasilakos, Stefanos Zafeiriou, Jiankang Deng
cs.AI

Аннотация

Модели «Vision-Language-Action» (VLA) открывают революцию в робототехнике, позволяя машинам понимать инструкции и взаимодействовать с физическим миром. Эта область стремительно развивается, появляются новые модели и наборы данных, что делает задачу отслеживания прогресса одновременно захватывающей и сложной. Данный обзор предлагает четкое и структурированное руководство по ландшафту VLA. Мы построили его, следуя естественному пути обучения исследователя: начинаем с базовых **Модулей** любой модели VLA, прослеживаем историю через ключевые **Вехи**, а затем глубоко погружаемся в основные **Проблемы**, определяющие современный фронт исследований. Наш главный вклад — это детальный анализ пяти крупнейших вызовов в областях: (1) Репрезентация, (2) Исполнение, (3) Обобщение, (4) Безопасность и (5) Данные и оценка. Эта структура отражает дорожную карту развития универсального агента: установление фундаментального цикла «восприятие-действие», масштабирование возможностей для различных воплощений и сред и, наконец, обеспечение надежного развертывания — все это поддерживается необходимой инфраструктурой данных. Для каждой из проблем мы анализируем существующие подходы и выделяем перспективные направления. Мы позиционируем эту статью как фундаментальное руководство для новичков и стратегическую дорожную карту для опытных исследователей, с двойной целью: ускорить обучение и вдохновить на новые идеи в области воплощенного интеллекта. Актуальная версия обзора с постоянными обновлениями поддерживается на нашем {project page}https://suyuz1.github.io/Survery/.
English
Vision-Language-Action (VLA) models are driving a revolution in robotics, enabling machines to understand instructions and interact with the physical world. This field is exploding with new models and datasets, making it both exciting and challenging to keep pace with. This survey offers a clear and structured guide to the VLA landscape. We design it to follow the natural learning path of a researcher: we start with the basic Modules of any VLA model, trace the history through key Milestones, and then dive deep into the core Challenges that define recent research frontier. Our main contribution is a detailed breakdown of the five biggest challenges in: (1) Representation, (2) Execution, (3) Generalization, (4) Safety, and (5) Dataset and Evaluation. This structure mirrors the developmental roadmap of a generalist agent: establishing the fundamental perception-action loop, scaling capabilities across diverse embodiments and environments, and finally ensuring trustworthy deployment-all supported by the essential data infrastructure. For each of them, we review existing approaches and highlight future opportunities. We position this paper as both a foundational guide for newcomers and a strategic roadmap for experienced researchers, with the dual aim of accelerating learning and inspiring new ideas in embodied intelligence. A live version of this survey, with continuous updates, is maintained on our https://suyuz1.github.io/Survery/{project page}.
PDF131December 23, 2025