GigaBrain-0: Мультимодальная модель "Видение-Язык-Действие" на основе мировой модели

Аннотация

Обучение моделей Vision-Language-Action (VLA) для универсальных роботов обычно требует крупномасштабных данных, собранных в реальном мире, что является дорогостоящим и трудоемким процессом. Неэффективность сбора физических данных серьезно ограничивает масштабируемость и способность к обобщению современных систем VLA. Для решения этой проблемы мы представляем GigaBrain-0 — новую базовую модель VLA, основанную на данных, сгенерированных с помощью моделей мира (например, генерация видео, перенос из реальности в реальность, перенос от человека, перенос точек обзора, перенос из симуляции в реальность). Используя модели мира для масштабной генерации разнообразных данных, GigaBrain-0 значительно снижает зависимость от реальных данных роботов, одновременно улучшая обобщение между задачами. Наш подход дополнительно повышает устойчивость политик за счет моделирования RGBD-входов и воплощенного контроля Chain-of-Thought (CoT), что позволяет модели рассуждать о пространственной геометрии, состояниях объектов и долгосрочных зависимостях в процессе выполнения задач. Это приводит к значительному улучшению производительности в реальных задачах, таких как точная манипуляция, долгосрочные задачи и мобильная манипуляция. Многочисленные эксперименты демонстрируют, что GigaBrain-0 достигает превосходного обобщения при изменениях внешнего вида (например, текстуры, цвета), расположения объектов и точек обзора камеры. Кроме того, мы представляем GigaBrain-0-Small — оптимизированную облегченную версию, разработанную для эффективной работы на устройствах, таких как NVIDIA Jetson AGX Orin.

English

Training Vision-Language-Action (VLA) models for generalist robots typically requires large-scale real-world robot data, which is expensive and time-consuming to collect. The inefficiency of physical data collection severely limits the scalability, and generalization capacity of current VLA systems. To address this challenge, we introduce GigaBrain-0, a novel VLA foundation model empowered by world model-generated data (e.g., video generation, real2real transfer, human transfer, view transfer, sim2real transfer data). By leveraging world models to generate diverse data at scale, GigaBrain-0 significantly reduces reliance on real robot data while improving cross-task generalization. Our approach further improves policy robustness through RGBD input modeling and embodied Chain-of-Thought (CoT) supervision, enabling the model to reason about spatial geometry, object states, and long-horizon dependencies during task execution. This leads to substantial gains in real-world performance on dexterous, long-horizon, and mobile manipulation tasks. Extensive experiments demonstrate that GigaBrain-0 achieves superior generalization across variations in appearances (e.g., textures, colors), object placements, and camera viewpoints. Additionally, we present GigaBrain-0-Small, an optimized lightweight variant designed to run efficiently on devices such as the NVIDIA Jetson AGX Orin.

GigaBrain-0: Мультимодальная модель "Видение-Язык-Действие" на основе мировой модели

GigaBrain-0: A World Model-Powered Vision-Language-Action Model

Аннотация

Support