ChatPaper.aiChatPaper

GigaBrain-0: Un Modelo Visión-Lenguaje-Acción Impulsado por un Modelo de Mundo

GigaBrain-0: A World Model-Powered Vision-Language-Action Model

October 22, 2025
Autores: GigaBrain Team, Angen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Haoyun Li, Jie Li, Jiagang Zhu, Lv Feng, Peng Li, Qiuping Deng, Runqi Ouyang, Wenkang Qin, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yilong Li, Yiran Ding, Yuan Xu, Yun Ye, Yukun Zhou, Zhehao Dong, Zhenan Wang, Zhichao Liu, Zheng Zhu
cs.AI

Resumen

El entrenamiento de modelos Visión-Lenguaje-Acción (VLA) para robots generalistas generalmente requiere datos robóticos a gran escala del mundo real, cuya recopilación es costosa y consume mucho tiempo. La ineficiencia en la recolección de datos físicos limita severamente la escalabilidad y la capacidad de generalización de los sistemas VLA actuales. Para abordar este desafío, presentamos GigaBrain-0, un novedoso modelo base VLA potenciado por datos generados mediante modelos del mundo (por ejemplo, generación de videos, transferencia real2real, transferencia humana, transferencia de vista, transferencia sim2real). Al aprovechar los modelos del mundo para generar datos diversos a escala, GigaBrain-0 reduce significativamente la dependencia de datos robóticos reales mientras mejora la generalización entre tareas. Nuestro enfoque también mejora la robustez de las políticas mediante el modelado de entradas RGBD y la supervisión encarnada de Cadena de Pensamiento (CoT), permitiendo que el modelo razone sobre la geometría espacial, los estados de los objetos y las dependencias de largo plazo durante la ejecución de tareas. Esto conduce a mejoras sustanciales en el rendimiento en el mundo real en tareas de manipulación diestra, de largo alcance y móvil. Experimentos extensos demuestran que GigaBrain-0 logra una generalización superior frente a variaciones en apariencias (por ejemplo, texturas, colores), ubicaciones de objetos y puntos de vista de la cámara. Además, presentamos GigaBrain-0-Small, una variante optimizada y ligera diseñada para ejecutarse eficientemente en dispositivos como el NVIDIA Jetson AGX Orin.
English
Training Vision-Language-Action (VLA) models for generalist robots typically requires large-scale real-world robot data, which is expensive and time-consuming to collect. The inefficiency of physical data collection severely limits the scalability, and generalization capacity of current VLA systems. To address this challenge, we introduce GigaBrain-0, a novel VLA foundation model empowered by world model-generated data (e.g., video generation, real2real transfer, human transfer, view transfer, sim2real transfer data). By leveraging world models to generate diverse data at scale, GigaBrain-0 significantly reduces reliance on real robot data while improving cross-task generalization. Our approach further improves policy robustness through RGBD input modeling and embodied Chain-of-Thought (CoT) supervision, enabling the model to reason about spatial geometry, object states, and long-horizon dependencies during task execution. This leads to substantial gains in real-world performance on dexterous, long-horizon, and mobile manipulation tasks. Extensive experiments demonstrate that GigaBrain-0 achieves superior generalization across variations in appearances (e.g., textures, colors), object placements, and camera viewpoints. Additionally, we present GigaBrain-0-Small, an optimized lightweight variant designed to run efficiently on devices such as the NVIDIA Jetson AGX Orin.
PDF304October 23, 2025