ChatPaper.aiChatPaper

GigaBrain-0: Мультимодальная модель "Видение-Язык-Действие" на основе мировой модели

GigaBrain-0: A World Model-Powered Vision-Language-Action Model

October 22, 2025
Авторы: GigaBrain Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jie Li, Jiagang Zhu, Lv Feng, Peng Li, Qiuping Deng, Runqi Ouyang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yilong Li, Yiran Ding, Yuan Xu, Yun Ye, Yukun Zhou, Zhehao Dong, Zhenan Wang, Zhichao Liu, Zheng Zhu
cs.AI

Аннотация

Обучение моделей Vision-Language-Action (VLA) для универсальных роботов обычно требует крупномасштабных данных, собранных в реальном мире, что является дорогостоящим и трудоемким процессом. Неэффективность сбора физических данных серьезно ограничивает масштабируемость и способность к обобщению современных систем VLA. Для решения этой проблемы мы представляем GigaBrain-0 — новую базовую модель VLA, основанную на данных, сгенерированных с помощью моделей мира (например, генерация видео, перенос из реальности в реальность, перенос от человека, перенос точек обзора, перенос из симуляции в реальность). Используя модели мира для масштабной генерации разнообразных данных, GigaBrain-0 значительно снижает зависимость от реальных данных роботов, одновременно улучшая обобщение между задачами. Наш подход дополнительно повышает устойчивость политик за счет моделирования RGBD-входов и воплощенного контроля Chain-of-Thought (CoT), что позволяет модели рассуждать о пространственной геометрии, состояниях объектов и долгосрочных зависимостях в процессе выполнения задач. Это приводит к значительному улучшению производительности в реальных задачах, таких как точная манипуляция, долгосрочные задачи и мобильная манипуляция. Многочисленные эксперименты демонстрируют, что GigaBrain-0 достигает превосходного обобщения при изменениях внешнего вида (например, текстуры, цвета), расположения объектов и точек обзора камеры. Кроме того, мы представляем GigaBrain-0-Small — оптимизированную облегченную версию, разработанную для эффективной работы на устройствах, таких как NVIDIA Jetson AGX Orin.
English
Training Vision-Language-Action (VLA) models for generalist robots typically requires large-scale real-world robot data, which is expensive and time-consuming to collect. The inefficiency of physical data collection severely limits the scalability, and generalization capacity of current VLA systems. To address this challenge, we introduce GigaBrain-0, a novel VLA foundation model empowered by world model-generated data (e.g., video generation, real2real transfer, human transfer, view transfer, sim2real transfer data). By leveraging world models to generate diverse data at scale, GigaBrain-0 significantly reduces reliance on real robot data while improving cross-task generalization. Our approach further improves policy robustness through RGBD input modeling and embodied Chain-of-Thought (CoT) supervision, enabling the model to reason about spatial geometry, object states, and long-horizon dependencies during task execution. This leads to substantial gains in real-world performance on dexterous, long-horizon, and mobile manipulation tasks. Extensive experiments demonstrate that GigaBrain-0 achieves superior generalization across variations in appearances (e.g., textures, colors), object placements, and camera viewpoints. Additionally, we present GigaBrain-0-Small, an optimized lightweight variant designed to run efficiently on devices such as the NVIDIA Jetson AGX Orin.
PDF304October 23, 2025