ChatPaper.aiChatPaper

GeneralVLA: Универсальные модели «Зрение-Язык-Действие» с планированием траекторий на основе знаний

GeneralVLA: Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning

February 4, 2026
Авторы: Guoqing Ma, Siheng Wang, Zeyu Zhang, Shan Yu, Hao Tang
cs.AI

Аннотация

Крупные базовые модели продемонстрировали высокую способность к обобщению в открытом мире для решения сложных задач в области компьютерного зрения и обработки естественного языка, однако сопоставимый уровень обобщения пока не достигнут в робототехнике. Ключевой проблемой является ограниченная способность моделей к решению задач "с нуля" (zero-shot), что препятствует их эффективному обобщению на новые сценарии. В данной работе мы предлагаем GeneralVLA (Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning) — иерархическую модель "зрение-язык-действие" (VLA), которая более эффективно использует обобщающие способности базовых моделей, обеспечивая манипуляцию "с нуля" и автоматическую генерацию данных для робототехники. В частности, мы исследуем класс иерархических моделей VLA, в которых высокоуровневый модуль сегментации аффордансов (Affordance Segmentation Module, ASM) дообучается для восприятия аффордансов ключевых точек изображения сцены; средний уровень (3DAgent) выполняет понимание задачи, использование знаний о навыках и планирование траектории для генерации 3D-пути, указывающего желаемую траекторию концевого эффектора робота. Предсказанный промежуточный 3D-путь затем используется как руководство для низкоуровневой, учитывающей 3D политики управления, способной к точному манипулированию. По сравнению с альтернативными подходами, наш метод не требует сбора данных с реальных роботов или демонстраций человеком, что делает его значительно более масштабируемым для разнообразных задач и точек обзора. Экспериментально показано, что GeneralVLA успешно генерирует траектории для 14 задач, значительно превосходя современные методы, такие как VoxPoser. Сгенерированные демонстрации позволяют обучать более устойчивые политики клонирования поведения по сравнению с обучением на человеческих демонстрациях или на данных, сгенерированных VoxPoser, Scaling-up и Code-As-Policies. Мы полагаем, что GeneralVLA может стать масштабируемым методом как для генерации данных в робототехнике, так и для решения новых задач в режиме "с нуля". Код: https://github.com/AIGeeksGroup/GeneralVLA. Сайт: https://aigeeksgroup.github.io/GeneralVLA.
English
Large foundation models have shown strong open-world generalization to complex problems in vision and language, but similar levels of generalization have yet to be achieved in robotics. One fundamental challenge is that the models exhibit limited zero-shot capability, which hampers their ability to generalize effectively to unseen scenarios. In this work, we propose GeneralVLA (Generalizable Vision-Language-Action Models with Knowledge-Guided Trajectory Planning), a hierarchical vision-language-action (VLA) model that can be more effective in utilizing the generalization of foundation models, enabling zero-shot manipulation and automatically generating data for robotics. In particular, we study a class of hierarchical VLA model where the high-level ASM (Affordance Segmentation Module) is finetuned to perceive image keypoint affordances of the scene; the mid-level 3DAgent carries out task understanding, skill knowledge, and trajectory planning to produce a 3D path indicating the desired robot end-effector trajectory. The intermediate 3D path prediction is then served as guidance to the low-level, 3D-aware control policy capable of precise manipulation. Compared to alternative approaches, our method requires no real-world robotic data collection or human demonstration, making it much more scalable to diverse tasks and viewpoints. Empirically, GeneralVLA successfully generates trajectories for 14 tasks, significantly outperforming state-of-the-art methods such as VoxPoser. The generated demonstrations can train more robust behavior cloning policies than training with human demonstrations or from data generated by VoxPoser, Scaling-up, and Code-As-Policies. We believe GeneralVLA can be the scalable method for both generating data for robotics and solving novel tasks in a zero-shot setting. Code: https://github.com/AIGeeksGroup/GeneralVLA. Website: https://aigeeksgroup.github.io/GeneralVLA.
PDF12February 17, 2026